人工智能离不开“人工投喂”数据,现在中国约有 100 万人做这事

计算机借助神经网络实现类似人类的认知“技能”。今年图灵奖授予神经网络领域专家。人工智能普及虽会使部分重复体力岗位消失,但也创造新岗位,如数据标记员。该工作外包化普遍,不过也存在工作无聊、道德法律等问题。当前“人工”仍是人工智能重要基石,技术革新会促进就业。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

听到“喵喵”想到猫,听到“汪汪”想到狗……理解所听所闻是智力认知正常人类的天赋。计算机如果要实现类似的“技能”就需要借助“神经网络”。它是机器观察周围世界、辨识声音甚至理解自然语言的一种方式,是实现被广泛讨论的人工智能的重要基础之一。

今年计算机界最高荣誉图灵奖授予了三位计算机神经网络领域(Neural Network)的专家,杰弗里·辛顿、杨立昆和约书亚·本吉奥。

借助神经网络和机器学习,人们可以在短时间内,从数万份 CT 中找出一种特定的疾病;可以通过分析大量的美联储讲话纪要,判断下一次货币政策变动的时间和力度。

传统的观点认为自动化时代,人类和机器学习间的竞争宛如蒸汽时代人力和蒸汽机间的竞争那般弱小,人工智能普及即意味着人类集中失业。如咨询机构麦肯锡的一份报告所述,到 2030 年,自动化会使得全球 4-8 亿人失业。

但是人们容易忽略的是,这些消失的岗位原本可能是属于重复的体力劳动。如果没有人工智能,他们也可能被另一个信息革命、工业革命所取代。同时,人工智能普及同样也会创造大量新岗位。

高德纳咨询公司预测到 2020 年人工智能将催生出 230 万的工作岗位,多过它们“抹去”的 180 万个岗位。这些工作不光来自于高学历科研人才,还有信息时代的“蓝领工人” —— 数据标记员 —— 他们同样也是深度学习、机器学习和神经网络等前沿技术实现快速演进的重要基础。

数据标记员的工作职责是为图片贴标签并解读信息文字,进行分类后“喂养”给机器学习。根据 statista 的统计,2018 年,需要数据标记员的人工智能和机器学习行业规模已经达到 5 亿美元,预计 2023 年达到 12 亿。

这些工作者的薪水很低,但是在偏远地区,属于“比上不足比下有余”的情况——GQ 里描述的在郏县的情况,做得好月薪 4000 元,高过其他 2500-3000 元的招工。按照甲子广年援引的数据,中国全职的“数据标注者”已达到 10 万人,兼职人群的规模则接近 100 万。

28 岁的 Mujeeb Kolasseri 是一名印度的高中辍学生,他如今掌管着一家叫做 Infolks 的公司,公司的 200 多个雇员从事的就是数据标记员的工作。Mujeeb Kolasseri 所住的村庄中的 3500 户人家中,识字率超过九成。如果不是人工智能,他们可能更多会从事到繁杂沉重的体力活中,数据标记员岗位的出现,让他们有了相对安全稳定的工作。

相比 Infolks,另外一家叫做 iMerit 的印度美国合资公司更能体现数据标记员“蓝领”的状况。虽然公司的技术与营销副总裁 Jai Natarajan 把这份工作称作是与图像相关的先锋工作,不过公司雇佣的 2000 名数据标记员中,其中约 80% 员工的家庭月收入不到 100 美元。雇员中一半为女性——从这个角度来看,数据标记员无疑为处于社会阶级下层的女性提供了机会。

数据标记员的工作不仅发生在公司,还可能在监狱。芬兰就有监狱与公司达成合作,由犯人负责标记的工作。他们的薪水与亚马逊劳务众包平台“Amazon Mechanical Turk”上完成任务支付的金额差不多,但是流到犯人手中的钱需要经过刑事制裁机构的评估。

以数据标记员为代表的职业,在渠道上也体现了人工智能时代的一个特点:外包化。

甲子光年提到过的国内外包的情况:外包方一端,有“众包”和“工厂”两种模式——前者是把任务通过平台转接给网民,如“百度众包”、“京东众智”、“龙猫数据”;后者是自己经营团队,对整个流程进行控制,如贵阳梦动科技经营了一个 500 人的“数据工场”;BasicFinder 与二十来家“数据工厂”有长期业务合作,少则几十人,多则两三百人。而在规范的机构之外,还游离着三五人到十几人规模不等的“小作坊”。

国外也有类似这样的外包平台网站,比如前面提到的“Amazon Mechanical Turk”。外包的不仅是数据标记,还有许多“微工作”,比如人工听写录音、或者写调查问卷。由互联网技术驱动的,人工智能相关的是其中的一个环节。根据世界银行的估计,2016 年,微工作的市场已经达到了 4 亿美元,平均的时薪是 5 美元。

这些廉价劳动力为的是让人工智能变得更完善(数据标记员)——虽然机器人可能让人们从工地的脏活累活中解脱,但是像数据标记员这样为人工智能”添砖加瓦“的工作同样冗长无聊,存在物理上的消耗。另外还有假扮机器人的角色,比如伪装成机器人智能回复邮件,效果姑且不论,这其中还牵涉到了道德甚至法律话题。

在肯尼亚也有类似的情况。他们的标记是为了给自动驾驶的 AI 服务。科技公司瞄准的是那些日薪 2 美元的劳动力,给他们开出的薪水是日薪 9 美元。

还有其他的一些工作,主要是在目前人工智能还不完善的情况下的方案,比如审核员或者假装机器人的人类。

YouTube 2017 年宣布会雇佣 1 万人,Facebook 2018 年年底有 1.5 万审核员,占据内容安全维护人员的一半。今日头条称会把审核员数量从 6000 加至 10000,快手从 2000 加到 5000。虽然国内外审核的语境不一样。外包也是常见的形式——Facebook 的审核员遍布全球超过 20 个城市。

由于会接触到各种血腥残忍的视频,工作对员工造成了身心伤害。The Verge 的稿子描绘出的一些具体情况:工作环境混乱,员工会通过倾诉黑暗笑话和吸大麻的方式释放压力。有员工睡觉时枕边放枪,并称不相信 911 是恐怖袭击。在菲尼克斯的审核员一年平均 2.88 万美元的收入。作为对比,Facebook 的员工平均年收入为 24 万美元。

有不少科技公司会用人类来假扮机器,因为开发一个人工智能的项目太难了,相比之下反而用人类来做这些事会更容易。具体的规模没有看到,不过很多公司都在这么做。比如,为了优化自己的服务体验,一些基于 Gmail 的第三方邮件 App 允许自己的员工阅读用户的邮件。

虽然公司声称只是在辅助人工智能,但实际上是人在做本应该由人工智能完成的工作。其中还牵涉到了比如阅读邮件的隐私问题。而科技公司的动机则是受到利益驱使,假装是行业翘楚获得关注和投资。

在当前技术条件下,“人工”仍是人工智能的重要基石。中国大约有 35 所高校开设“机器人工程”、“数据科学与大数据技术”、“大数据管理与应用”等和人工智能有关的专业。

另外,随着经济体本身的发展,人工智能同样也会导致劳动力转移。根据历史的经验,技术创造出的工作岗位数量是大于抹去的。换句话说,技术的革新会促进就业。PC 电脑的例子就能证明这一点。在美国,它让 350.8 万个岗位成为历史的同时,直接或间接地创造出了近 2000 万个新的岗位。

现在麦肯锡在报告中说,前述数亿失业人群中约有 7500 万-3.75 亿能够通过培训学习找到新工作。

### 如何在本地环境中为AI模型提供训练数据 #### 准备工作 为了确保能够在本地环境中顺利地为AI模型提供训练数据,需先安装必要的软件和库。这通常包括Python及其相关机器学习框架如TensorFlow或PyTorch等。 对于大型数据集的处理,建议使用专门设计用于高效读取大量文件系统的工具,比如HDF5格式支持随机访问大数据集中的任意部分而无需加载整个文件到内存中[^2]。 #### 设置本地环境 创建一个新的虚拟环境来隔离项目依赖项是一个良好的实践方法: ```bash python -m venv myenv source myenv/bin/activate # Linux/MacOS 或者 `myenv\Scripts\activate` Windows下激活环境 pip install --upgrade pip setuptools wheel ``` 接着可以安装所需的深度学习库和其他辅助包: ```bash pip install torch torchvision torchaudio pandas numpy scikit-learn h5py ``` #### 加载并预处理数据 假设已经下载了一个适合的大规模语料库(例如200G悟道数据集),下一步就是编写脚本来解析这些原始资料并将它们转换成可供神经网络使用的张量形式。这里给出一个简单的例子展示如何利用Pandas读入CSV文件作为输入源之一: ```python import pandas as pd from sklearn.model_selection import train_test_split # 假设有一个名为data.csv的文件位于当前目录下 df = pd.read_csv('path/to/data.csv') # 对于分类任务可能还需要编码标签列 X, y = df.drop(columns=['label']), df['label'] # 划分训练集与验证集 train_X, val_X, train_y, val_y = train_test_split(X, y, test_size=0.2) print(f'Training samples: {len(train_X)}, Validation samples: {len(val_X)}') ``` 如果采用的是更复杂的数据结构,则可以根据具体需求调整上述代码片段;另外考虑到性能因素,在实际应用当中往往还会涉及到多进程或多线程加速I/O操作以及批量化送入批次样本给GPU计算单元等内容。 #### 构建数据管道 当面对海量级别的文本或其他类型的非结构化信息时,构建稳定可靠的数据流管线变得尤为重要。通过定义自定义Dataset类继承自torch.utils.data.Dataset接口,并实现getitem()函数返回单条记录的方式能够很好地满足这一目的。下面是一段简化版的实现思路说明: ```python class CustomTextDataset(torch.utils.data.Dataset): def __init__(self, texts, labels=None, tokenizer=None, max_len=128): self.texts = texts self.labels = [None]*len(texts) if labels is None else labels self.tokenizer = tokenizer or BertTokenizer.from_pretrained('bert-base-chinese') # 默认使用中文BERT分词器 self.max_len = max_len def __len__(self): return len(self.texts) def __getitem__(self, idx): text = str(self.texts[idx]) inputs = self.tokenizer.encode_plus( text, add_special_tokens=True, max_length=self.max_len, padding='max_length', truncation=True, return_attention_mask=True, return_tensors="pt" ) input_ids = inputs["input_ids"].flatten() attention_masks = inputs["attention_mask"].flatten() sample = { 'ids': input_ids.long(), 'mask': attention_masks.int(), 'targets': torch.tensor(self.labels[idx], dtype=torch.float), } return sample ``` 此段程序展示了怎样封装一段文字序列成为可用于后续微调预训练语言模型的标准格式。值得注意的是,此处仅提供了基础版本供参考,针对特定应用场景还应该进一步优化参数配置以获得最佳表现效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值