数据标注质量控制与注释者间一致性评估
1. 标注与真实答案对比及预期准确率基线
在任何标注任务中,调整随机因素后的负分数都应引起标注过程的警觉。对于预期准确率,有三种基线可供参考:随机、数据频率和最频繁标签。计算这三个指标有助于我们对数据形成直观认识。
- 随机基线 :当标注者刚开始接触任务,对标签频率没有直观认识时,其标注更接近随机标注。
- 数据频率基线 :在计算整个数据集层面的一致性时更具相关性。
- 最频繁标签基线 :当标注者熟悉任务后,采用此基线更为严格。可以将任务开始的前几分钟、几小时或几天视为标注者的熟悉阶段。
实际建议是,等待标注者熟悉任务后,应用最严格的基线——最频繁标签。理解所有基线并在合适的时间应用它们非常重要,同时,数据标注的质量控制需要投入大量资源,应纳入预算考虑。与标注数据的人员直接沟通有助于优化标注说明,若不考虑完善说明和剔除错误标注项,可能导致看似廉价但实际成本高昂的外包解决方案。
2. 注释者间一致性概述
数据科学家常说机器学习模型比人类更准确,通常指模型比普通人更准确。例如,语音识别技术在常见口音的非技术转录方面比普通英语使用者更准确。然而,若人类无法创建具有相应准确度的评估数据,该如何评估这些技术的质量呢?
“群体智慧”产生的数据比任何个人的数据更准确。一个多世纪以来,人们一直在研究如何将多个人的判断汇总成一个更准确的结果。例如,多人猜测奶牛重量时,所有猜测的平均值往往接近正确值。数据科学家所说的模型比人
超级会员免费看
订阅专栏 解锁全文
843

被折叠的 条评论
为什么被折叠?



