数据标注质量控制与高级应用
1. 数据标注工作流与质量控制基础
在数据标注领域,工作流的复杂度差异很大。最复杂的工作流可能包含约 40 个任务,例如用于自动驾驶车辆的计算机视觉任务,除了语义分割外,针对每种被跟踪的对象类型还有多个步骤。
而较简单的任务在用户体验方面存在一些权衡。一般来说,人们欣赏其效率,但这些任务感觉更重复,容易导致疲劳。此外,一些人,特别是内部的主题专家(SME),可能会对过去执行的复杂任务被拆分为简单任务感到不满,他们可能会认为这意味着自己没有足够的能力在一个界面中解决所有步骤。在这种情况下,需要向他们说明,工作流的选择是由于获取机器学习优质训练数据的限制,而不是因为标注者的专业能力不足。
1.1 数据标注质量控制要点总结
- 使用地面真值示例 :地面真值示例是已知答案的任务。通过为数据集创建地面真值示例,可以评估标注者的准确性,为标注者制定指南,并更好地校准其他质量控制技术。
- 计算多种协议 :在数据集中有多种计算协议的方法,包括总体协议、标注者之间的协议、标签之间的协议以及任务级别的协议。理解每种协议类型有助于计算训练和评估数据的准确性,并更好地管理标注者。
- 设置随机基线 :对于任何评估指标,应计算随机情况下可能出现的预期结果作为基线。这种方法可以将准确性/协议指标归一化为针对随机情况调整后的分数,使分数在不同任务之间更易于比较。
- 结合地面真值和标注者间协议 :同时使用地面真值数据和标注者间协议能获得最
数据标注质量控制与优化
超级会员免费看
订阅专栏 解锁全文
1174

被折叠的 条评论
为什么被折叠?



