人工智能离不开“人工投喂”数据,现在中国约有 100 万人做这事

计算机借助神经网络实现类似人类的认知“技能”。今年图灵奖授予神经网络领域专家。人工智能普及虽会使部分重复体力岗位消失,但也创造新岗位,如数据标记员。该工作外包化普遍,不过也存在工作无聊、道德法律等问题。当前“人工”仍是人工智能重要基石,技术革新会促进就业。

听到“喵喵”想到猫,听到“汪汪”想到狗……理解所听所闻是智力认知正常人类的天赋。计算机如果要实现类似的“技能”就需要借助“神经网络”。它是机器观察周围世界、辨识声音甚至理解自然语言的一种方式,是实现被广泛讨论的人工智能的重要基础之一。

今年计算机界最高荣誉图灵奖授予了三位计算机神经网络领域(Neural Network)的专家,杰弗里·辛顿、杨立昆和约书亚·本吉奥。

借助神经网络和机器学习,人们可以在短时间内,从数万份 CT 中找出一种特定的疾病;可以通过分析大量的美联储讲话纪要,判断下一次货币政策变动的时间和力度。

传统的观点认为自动化时代,人类和机器学习间的竞争宛如蒸汽时代人力和蒸汽机间的竞争那般弱小,人工智能普及即意味着人类集中失业。如咨询机构麦肯锡的一份报告所述,到 2030 年,自动化会使得全球 4-8 亿人失业。

但是人们容易忽略的是,这些消失的岗位原本可能是属于重复的体力劳动。如果没有人工智能,他们也可能被另一个信息革命、工业革命所取代。同时,人工智能普及同样也会创造大量新岗位。

高德纳咨询公司预测到 2020 年人工智能将催生出 230 万的工作岗位,多过它们“抹去”的 180 万个岗位。这些工作不光来自于高学历科研人才,还有信息时代的“蓝领工人” —— 数据标记员 —— 他们同样也是深度学习、机器学习和神经网络等前沿技术实现快速演进的重要基础。

数据标记员的工作职责是为图片贴标签并解读信息文字,进行分类后“喂养”给机器学习。根据 statista 的统计,2018 年,需要数据标记员的人工智能和机器学习行业规模已经达到 5 亿美元,预计 2023 年达到 12 亿。

这些工作者的薪水很低,但是在偏远地区,属于“比上不足比下有余”的情况——GQ 里描述的在郏县的情况,做得好月薪 4000 元,高过其他 2500-3000 元的招工。按照甲子广年援引的数据,中国全职的“数据标注者”已达到 10 万人,兼职人群的规模则接近 100 万。

28 岁的 Mujeeb Kolasseri 是一名印度的高中辍学生,他如今掌管着一家叫做 Infolks 的公司,公司的 200 多个雇员从事的就是数据标记员的工作。Mujeeb Kolasseri 所住的村庄中的 3500 户人家中,识字率超过九成。如果不是人工智能,他们可能更多会从事到繁杂沉重的体力活中,数据标记员岗位的出现,让他们有了相对安全稳定的工作。

相比 Infolks,另外一家叫做 iMerit 的印度美国合资公司更能体现数据标记员“蓝领”的状况。虽然公司的技术与营销副总裁 Jai Natarajan 把这份工作称作是与图像相关的先锋工作,不过公司雇佣的 2000 名数据标记员中,其中约 80% 员工的家庭月收入不到 100 美元。雇员中一半为女性——从这个角度来看,数据标记员无疑为处于社会阶级下层的女性提供了机会。

数据标记员的工作不仅发生在公司,还可能在监狱。芬兰就有监狱与公司达成合作,由犯人负责标记的工作。他们的薪水与亚马逊劳务众包平台“Amazon Mechanical Turk”上完成任务支付的金额差不多,但是流到犯人手中的钱需要经过刑事制裁机构的评估。

以数据标记员为代表的职业,在渠道上也体现了人工智能时代的一个特点:外包化。

甲子光年提到过的国内外包的情况:外包方一端,有“众包”和“工厂”两种模式——前者是把任务通过平台转接给网民,如“百度众包”、“京东众智”、“龙猫数据”;后者是自己经营团队,对整个流程进行控制,如贵阳梦动科技经营了一个 500 人的“数据工场”;BasicFinder 与二十来家“数据工厂”有长期业务合作,少则几十人,多则两三百人。而在规范的机构之外,还游离着三五人到十几人规模不等的“小作坊”。

国外也有类似这样的外包平台网站,比如前面提到的“Amazon Mechanical Turk”。外包的不仅是数据标记,还有许多“微工作”,比如人工听写录音、或者写调查问卷。由互联网技术驱动的,人工智能相关的是其中的一个环节。根据世界银行的估计,2016 年,微工作的市场已经达到了 4 亿美元,平均的时薪是 5 美元。

这些廉价劳动力为的是让人工智能变得更完善(数据标记员)——虽然机器人可能让人们从工地的脏活累活中解脱,但是像数据标记员这样为人工智能”添砖加瓦“的工作同样冗长无聊,存在物理上的消耗。另外还有假扮机器人的角色,比如伪装成机器人智能回复邮件,效果姑且不论,这其中还牵涉到了道德甚至法律话题。

在肯尼亚也有类似的情况。他们的标记是为了给自动驾驶的 AI 服务。科技公司瞄准的是那些日薪 2 美元的劳动力,给他们开出的薪水是日薪 9 美元。

还有其他的一些工作,主要是在目前人工智能还不完善的情况下的方案,比如审核员或者假装机器人的人类。

YouTube 2017 年宣布会雇佣 1 万人,Facebook 2018 年年底有 1.5 万审核员,占据内容安全维护人员的一半。今日头条称会把审核员数量从 6000 加至 10000,快手从 2000 加到 5000。虽然国内外审核的语境不一样。外包也是常见的形式——Facebook 的审核员遍布全球超过 20 个城市。

由于会接触到各种血腥残忍的视频,工作对员工造成了身心伤害。The Verge 的稿子描绘出的一些具体情况:工作环境混乱,员工会通过倾诉黑暗笑话和吸大麻的方式释放压力。有员工睡觉时枕边放枪,并称不相信 911 是恐怖袭击。在菲尼克斯的审核员一年平均 2.88 万美元的收入。作为对比,Facebook 的员工平均年收入为 24 万美元。

有不少科技公司会用人类来假扮机器,因为开发一个人工智能的项目太难了,相比之下反而用人类来做这些事会更容易。具体的规模没有看到,不过很多公司都在这么做。比如,为了优化自己的服务体验,一些基于 Gmail 的第三方邮件 App 允许自己的员工阅读用户的邮件。

虽然公司声称只是在辅助人工智能,但实际上是人在做本应该由人工智能完成的工作。其中还牵涉到了比如阅读邮件的隐私问题。而科技公司的动机则是受到利益驱使,假装是行业翘楚获得关注和投资。

在当前技术条件下,“人工”仍是人工智能的重要基石。中国大约有 35 所高校开设“机器人工程”、“数据科学与大数据技术”、“大数据管理与应用”等和人工智能有关的专业。

另外,随着经济体本身的发展,人工智能同样也会导致劳动力转移。根据历史的经验,技术创造出的工作岗位数量是大于抹去的。换句话说,技术的革新会促进就业。PC 电脑的例子就能证明这一点。在美国,它让 350.8 万个岗位成为历史的同时,直接或间接地创造出了近 2000 万个新的岗位。

现在麦肯锡在报告中说,前述数亿失业人群中约有 7500 万-3.75 亿能够通过培训学习找到新工作。

### 如何为AI模型准备和输入训练数据AI模型准备和输入训练数据是一个复杂但至关重要的过程,它直接影响到模型的性能和准确性。以下是关于如何为AI模型提供训练数据的详细说明: #### 数据收集 数据收集是整个过程的第一步,需要确保数据的质量和多样性。可以通过多种途径获取数据,例如公开数据集、爬虫抓取、用户生成内容等[^1]。此外,还可以购买专业的数据集以满足特定需求。 #### 数据清洗 在收集到原始数据后,通常需要进行数据清洗,以去除噪声和错误。这一步骤可能包括删除重复项、填补缺失值、纠正错误数据以及标准化格式[^2]。数据清洗的目标是提高数据质量,从而提升模型的训练效果。 #### 数据标注 对于监督学习模型,数据标注是不可或缺的一部分。这意味着需要对数据进行分类或标记,以便模型能够学习到正确的映射关系。可以采用人工标注、半自动化标注或者使用现有的标注工具来完成这一任务。 #### 数据划分 为了评估模型的性能,通常会将数据划分为训练集、验证集和测试集。训练集用于模型训练,验证集用于调整超参数和防止过拟合,而测试集则用于最终评估模型的泛化能力[^2]。 #### 数据增强 在某些情况下,尤其是当数据量不足时,可以使用数据增强技术来扩充数据集。这可能包括图像旋转、缩放、翻转等操作(针对图像数据),或者文本中的同义词替换、句子重组等方法(针对文本数据)。 #### 数据输入 最后,在将数据输入到模型中之前,通常需要对其进行预处理,例如归一化、向量化或转换为适合模型输入的格式。对于深度学习模型,常见的法是将数据组织成批次(batch),并通过数据加载器(data loader)逐步输入到模型中。 ```python # 示例代码:使用PyTorch的数据加载器 from torch.utils.data import DataLoader, Dataset class CustomDataset(Dataset): def __init__(self, data, labels): self.data = data self.labels = labels def __len__(self): return len(self.data) def __getitem__(self, idx): return self.data[idx], self.labels[idx] dataset = CustomDataset(data, labels) dataloader = DataLoader(dataset, batch_size=32, shuffle=True) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值