数据标注:光鲜背后的付出

**

新生代农民工:数据标注

**

5到10年后,当人工智能全面普及,科技先驱和新一代商业巨子注定会被时代的聚光灯铭记。 但今天却想说一个关于人工智能“从未被讲出”的故事,写一群时代大幕后的“隐形者”——标数据的人。

在这里插入图片描述

智能时代滚滚巨轮之下,一批批用于“人脸识别”、“自动驾驶”、“自然语言处理”的标注好的数据,正是出自这些学历不高,每天对着电脑工作8到10小时的人手中——他们是“人工智能背后的人工”。经过采访了多个数据标注服务商、数据标注工作室和数据标注者。据业内人士估计,中国全职的“数据标注者”已达到10万人,兼职人群的规模则接近100万。他们中有职高学生,有尝试过40份工作的聋哑人,有从工地辗转而来的新生代农民工……他们源源不断地为人工智能的发展供应最重要的“数据燃料”——在现有的技术框架下,数据量越大,质量越好,算法模型就表现越好。可以说,数据决定着整个人工智能行业的发展态势。但标注工作本身是一个劳动密集型工种,收入并不高。随着技术的进一步发展,未来还有被取代的可能。许多数据标注者的父辈是参与了中国房地产奇迹的农民工。如今,父辈手里的铁铲变成了年轻人的鼠标、键盘,但和父辈一样,他们仍是边缘者。在这个除夕,他们也像父辈一样踏上了归乡的旅途,不仅是从城市回到乡村,也是从科技前线回到古老的火炉前。小志从贵阳坐了四小时的大巴回到山区家中,第一件事就是将钱塞到母亲手里; 犇犇给父亲买了新的电动剃须刀; 何军家在河南周口,打算把钱都存着娶媳妇,过年期间就要见几个相亲对象; 小袁想再挣点钱后换一副助听器,现在这个他已戴了好多年,把他不断长大的耳蜗磨出了新新旧旧的伤…… 我们无法预判他们的命运,但选择讲出他们的故事。这些科技进步背后的“无名者”值得一次认真的注视。

数据折叠

数据折叠人工智能的世界里,存在不为人知的“数据折叠”: 一边是炫酷的科技、神奇的智能应用;一边是大量人
工每天重复地生产机器学习的“食物”——标注好的数据。 北京和贵阳,是数据标注世界里的两座“双子星”城市。北
京聚集了大量人工智能公司;贵阳近年来着力发展“大数据战略”,已拥有相对完整的数据服务产业生态。 2017
年,仅北京中关村大数据产业规模就超过700亿元;贵阳2017年的大数据产业及其关联产业规模总量超过1500亿
元。AI行业的总规模也在持续增加,根据麦肯锡2017年4月发布的一份报告,到2025年,AI应用的总市场可能达到1270亿美元。 但标注数据的人,生活在这些巨额数字之外,拿着不高的工资,活动在“第二空间”。 从三里屯驱车1小时,行驶30公里,就到了北京邮电大学宏福校区。这里有北邮和华腾硕博合办的电子商务培训班,学生总数300多人,高峰时期,有120多人参与数据标注的兼职项目。 标注工作室占满了某栋教学楼二层的5个房间,150台电脑前坐着一群十八九岁的学生,正盯着电脑屏幕给图片拉框。他们流程化地操作鼠标——这些枯燥的工作,最终将用于热闹炫酷的无人驾驶项目。从做数据标注的教室窗口向外望,可以看到北邮的教一,那里有国际学院和计算机专业学生专用的机房。 兼职标数据的培训班学员一个月的收入在2000元左右。如果全职做,人均工资约4000到5000元。而坐在教一的未来算法工程师,刚毕业时,起薪就可能达到30万元/年。

在这里插入图片描述

BasicFinder旗下某数据工厂 培训班学员参与的标注项目,采用了目前数据标注行业的主流模式之一——“外包”。 某数据标注主管告诉「甲子光年」,AI数据标注的外包市场2011年开启,2015年真正开始,2016年下半年出现收缩,2017年又有了新一轮的爆发。 外包盛行,是因为人工智能的发展需要大量人力对非结构的数据进行加工,以用于机器学习。而创业团队和巨头公司,为了集中精力研发或保持团队的高学历占

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值