数据标注质量控制:从标注对比到一致性评估
1. 标注与真实答案对比
在任何标注任务中,调整随机因素后的负分都应在标注过程中引起警觉。对于标注质量控制相关内容有所了解的人都知道,根据预期行为进行归一化的指标通常被称为校正随机因素或调整随机因素后的指标。在很多情况下,预期行为并非随机的,不过对于客观标注任务,预期和随机的含义是相同的。
1.1 预期准确率的基线选择
预期准确率有三种基线:随机、数据频率和最频繁。计算这三个指标有助于我们直观了解数据情况。选择用于归一化准确率的正确指标,取决于具体任务和标注人员的经验。
- 当一个人刚开始进行任务时,他们对哪个标签更频繁没有直观认识,所以更可能接近随机标注。
- 一段时间后,他们会意识到某个标签比其他标签更频繁,在不确定时可能会放心猜测该标签。
实际建议是,等待标注人员熟悉任务后,应用最严格的基线,即最频繁的标签。可以将任务开始的前几分钟、几小时或几天视为标注人员的熟悉阶段。当标注人员对数据有强烈的直观认识时,他们会考虑标签的相对频率。不过,数据频率在计算整个数据集的一致性时更为相关。因此,理解所有基线并在合适的时间应用它们非常重要。
数据标注的高质量控制需要大量资源,应将其纳入预算。与标注数据的人员直接沟通很有帮助,因为有些指令在实践中可能行不通,需要与标注人员密切合作进行完善。而且,即使项目投入生产后,也可能需要不断完善指令并添加标注。如果不考虑完善指令和剔除错误标注的项目,可能会导致表面上廉价但实际昂贵的外包解决方案。
2. 标注者间一致性
数据科学家说他们的机器学习模型比人类更准确时,通常指的是模型比普通人更准确。例如,语音
超级会员免费看
订阅专栏 解锁全文
48

被折叠的 条评论
为什么被折叠?



