3、人机协同机器学习:数据标注与主动学习策略解析

人机协同机器学习:数据标注与主动学习

人机协同机器学习:数据标注与主动学习策略解析

1. 数据标注:复杂且关键的环节

数据标注在机器学习中是不可或缺的一环,其过程可能十分复杂。例如,若要为社交媒体帖子的情感倾向进行标注,可设置情感选项,每个评级就会成为训练数据中该帖子的标签。但对于视频中的每个对象用边界框进行标注时,简单的 HTML 表单就远远不够了,需要一个图形界面让标注人员绘制这些框,而打造一个良好的用户体验可能需要数月的工程时间。

在数据科学知识方面,机器学习算法策略和数据标注策略可以同时进行优化。这两种策略紧密相连,采用综合方法通常能更快地提高模型的准确性。然而,计算机科学系大多提供机器学习课程,却很少有关于创建训练数据的课程。学术机器学习研究人员过去常保持数据集不变,仅从不同算法角度评估研究。但在工业界,通过标注更多训练数据来提高模型性能更为常见。由于学术界的这种不平衡,工业界常犯的错误是招聘擅长构建先进算法但缺乏创建训练数据经验的人员。比如一家大型汽车制造商,虽招聘了众多机器学习毕业生,但因新员工无法扩展数据标注策略,导致自动驾驶技术无法投入使用,最终整个团队被解散。

高质量的人工标注为何困难呢?标注是一门与机器学习紧密相关的科学,人类标注者可能会出错,克服这些错误需要复杂的统计方法。训练数据中的人为错误的重要性取决于具体用例。对于仅用于识别消费者情绪大致趋势的机器学习模型,1% 的不良训练数据产生的误差可能影响不大;但对于自动驾驶汽车算法,因不良训练数据导致 1% 的行人未被识别,后果将不堪设想。有些算法能处理训练数据中的一些噪声,随机噪声甚至有助于避免过拟合,但人为错误并非随机噪声,会给训练数据带来不可恢复的偏差。对于简单的客观任务的二元标签,在不同标注者意见不一致时,确定正确标签的统计方法相对直接;

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值