人机协同机器学习:数据标注与主动学习策略
1. 数据标注的复杂性与重要性
数据标注是机器学习中不可或缺的环节,但过程可能十分复杂。例如,若要为视频中的每个对象添加边界框,简单的 HTML 表单远远不够,需要一个图形界面让标注人员绘制这些框,而打造良好的用户体验可能需要数月的工程时间。
在数据科学知识方面,机器学习算法策略和数据标注策略可以同时优化,二者紧密交织。采用综合方法往往能更快地提高模型的准确性,算法和标注都是优质机器学习的重要组成部分。
然而,计算机科学系大多提供机器学习课程,却很少有关于创建训练数据的课程。学术机器学习研究人员过去倾向于保持数据集不变,仅从不同算法的角度评估研究。而在工业界,通过标注更多训练数据来提高模型性能更为常见。尤其是当数据的性质随时间变化时,少量新的标注可能比尝试将现有模型适应新的数据领域更有效。但学术界更多的论文关注的是如何在不使用新训练数据的情况下使算法适应新领域,而不是如何高效地标注正确的新训练数据。
这种学术上的不平衡导致工业界常犯错误。比如,有的公司聘请了许多擅长构建先进算法的博士,但他们缺乏创建训练数据或设计合适标注界面的经验。一家大型汽车制造商就因新员工无法扩展数据标注策略,最终让整个团队离职。后来,建议该公司将算法和标注视为同等重要且相互交织的部分来重建策略。
2. 高质量人工标注为何困难
标注是一门与机器学习紧密相关的科学。人类在提供标签时可能会出错,克服这些错误需要复杂的统计方法。
训练数据中的人为错误的重要性因用例而异。如果机器学习模型仅用于识别消费者情绪的大致趋势,1% 的不良训练数据产生的错误可能无关紧要。但如果自动驾驶汽车的算法因不良训
超级会员免费看
订阅专栏 解锁全文
1096

被折叠的 条评论
为什么被折叠?



