数据标注师的工作内容是什么?正规数据标注平台有多少
据说这些数据是人工智能时代的石油,我们的工作是把原油转化为汽油。
我们就像‘学前教育’,教人工智能更好地理解数据。
……
谈到数据标签这一职业,"90 后" 李玉龙特别兴奋。尽管他只工作了四年,但他已经是一名资深的数据标注专家了。
数据注释器是做什么的?
数据标注是随着人工智能的发展而兴起的一门新兴行业,人工智能实践认知需要大量的标记数据,数据标注工作最早是由人工智能工程师完成的,随着人工智能所需数据量的不断增加,数据标注逐渐成为一种新型的工作。
数据标记有时就像玩游戏一样。" 李玉龙最近正在从事一个自动驾驶仪数据标记项目,该项目基于 2D 街景照片和相应的三维点云图片上的框选。
你看,把车框起来,用白点撞它,这意味着它是个障碍。" 随着鼠标的快速滑动,屏幕上的点云图像继续翻转,大数据点在图片中的不同物体上被标记 -- 蓝色是路面,绿色是绿色,红色是道路的边缘,白色是障碍物。
李玉龙说,像这样的普通点云图像必须标出大约 180000 点,熟练的数据注释器可以在半个多小时内完成。这样的话,每天记录 200 万点就没问题了," 李说。
李玉龙最初在一家有印刷电路板的外国公司工作。他偶尔会接触到数据标记行业,并加入这个行业。他说,与传统行业相比,这个行业有一种 "科学错觉":传统行业的原材料和产品可以被看到和触摸,数据标签只需要一台计算机和一根网线,原材料就是数据,产品也是数据。
然而,这种 "科幻小说" 的职业生涯正在真正改变现实生活。自动驾驶仪、面向支付、智能医学、智能家居。人工智能正在给生活带来越来越多的便利,这是由数据定标者的工作所支持的。
虽然我们从事的是人工智能领域最基本的工作,但我们经常感到有价值感。"李玉龙说,在疫情期间,新冠肺炎和他的同事做了一个医学项目,在肺部 CT 胶片上标记焦点数据,以提高人工智能识别病毒的能力。" 医生需要几分钟时间才能看到 CT,如果你使用改进的人工智能算法作为辅助,你可以在几秒钟内初步确定 CT 上是否有疑似病毒。
从事数据标签的工作每天都需要面对电脑,不由得感到无聊。但李玉龙说,数据标记为他开辟了一个更大的世界,因为他经常接触不同的项目,涉及不同领域的每一个项目,往往都会带来新鲜感。
更重要的是,这将是一个可持续的产业。随着人工智能进入越来越多的行业,对数据标记的需求将越来越高,数据标记行业的前景将是无限的," 李说。
有多少正式的数据标签平台?
如今,仅李玉龙一家位于百度(山西)人工智能基础数据产业基地,就有 35 家数据标签企业,2300 多名数据标注专家。百度智能云数据众包有 5 万多个离线采集者和 2000 万多万众包互联网用户。
每当有人问我的职业生涯时,当我回答数据注解员时,对方的脸上总是满是问号。" 李玉龙说,越来越多的人会了解这个行业。我希望有一天,人们会像老师和医生一样,谈论数据标签。