29、数据标注质量控制与注释者间一致性评估

数据标注质量控制与注释者间一致性评估

1. 标注与真实答案对比及预期准确率基线

在任何标注任务中,调整随机因素后的负分数都应引起标注过程的警觉。对于预期准确率,有三种基线可供参考:随机、数据频率和最频繁标签。计算这三个指标有助于我们对数据形成直观认识。

  • 随机基线 :当标注者刚开始接触任务,对标签频率没有直观认识时,其标注更接近随机标注。
  • 数据频率基线 :在计算整个数据集层面的一致性时更具相关性。
  • 最频繁标签基线 :当标注者熟悉任务后,采用此基线更为严格。可以将任务开始的前几分钟、几小时或几天视为标注者的熟悉阶段。

实际建议是,等待标注者熟悉任务后,应用最严格的基线——最频繁标签。理解所有基线并在合适的时间应用它们非常重要,同时,数据标注的质量控制需要投入大量资源,应纳入预算考虑。与标注数据的人员直接沟通有助于优化标注说明,若不考虑完善说明和剔除错误标注项,可能导致看似廉价但实际成本高昂的外包解决方案。

2. 注释者间一致性概述

数据科学家常说机器学习模型比人类更准确,通常指模型比普通人更准确。例如,语音识别技术在常见口音的非技术转录方面比普通英语使用者更准确。然而,若人类无法创建具有相应准确度的评估数据,该如何评估这些技术的质量呢?

“群体智慧”产生的数据比任何个人的数据更准确。一个多世纪以来,人们一直在研究如何将多个人的判断汇总成一个更准确的结果。例如,多人猜测奶牛重量时,所有猜测的平均值往往接近正确值。数据科学家所说的模型比人

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值