3、人机协同机器学习:数据标注与主动学习策略

人机协同机器学习:数据标注与主动学习策略

1. 数据标注的复杂性与重要性

数据标注是机器学习中不可或缺的环节,但过程可能十分复杂。例如,若要为视频中的每个对象添加边界框,简单的 HTML 表单远远不够,需要一个图形界面让标注人员绘制这些框,而打造良好的用户体验可能需要数月的工程时间。

在数据科学知识方面,机器学习算法策略和数据标注策略可以同时优化,二者紧密交织。采用综合方法往往能更快地提高模型的准确性,算法和标注都是优质机器学习的重要组成部分。

然而,计算机科学系大多提供机器学习课程,却很少有关于创建训练数据的课程。学术机器学习研究人员过去倾向于保持数据集不变,仅从不同算法的角度评估研究。而在工业界,通过标注更多训练数据来提高模型性能更为常见。尤其是当数据的性质随时间变化时,少量新的标注可能比尝试将现有模型适应新的数据领域更有效。但学术界更多的论文关注的是如何在不使用新训练数据的情况下使算法适应新领域,而不是如何高效地标注正确的新训练数据。

这种学术上的不平衡导致工业界常犯错误。比如,有的公司聘请了许多擅长构建先进算法的博士,但他们缺乏创建训练数据或设计合适标注界面的经验。一家大型汽车制造商就因新员工无法扩展数据标注策略,最终让整个团队离职。后来,建议该公司将算法和标注视为同等重要且相互交织的部分来重建策略。

2. 高质量人工标注为何困难

标注是一门与机器学习紧密相关的科学。人类在提供标签时可能会出错,克服这些错误需要复杂的统计方法。

训练数据中的人为错误的重要性因用例而异。如果机器学习模型仅用于识别消费者情绪的大致趋势,1% 的不良训练数据产生的错误可能无关紧要。但如果自动驾驶汽车的算法因不良训

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值