29、数据标注质量控制：从标注对比到一致性评估

最新推荐文章于 2025-10-31 03:54:06 发布

beta5

最新推荐文章于 2025-10-31 03:54:06 发布

阅读量58

点赞数

CC 4.0 BY-SA版权

分类专栏：人机协同：数据驱动AI未来文章标签：数据标注质量控制标注者间一致性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/beta5/article/details/151670167

人机协同：数据驱动AI未来专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据标注质量控制：从标注对比到一致性评估

1. 标注与真实答案对比

在任何标注任务中，调整随机因素后的负分都应在标注过程中引起警觉。对于标注质量控制相关内容有所了解的人都知道，根据预期行为进行归一化的指标通常被称为校正随机因素或调整随机因素后的指标。在很多情况下，预期行为并非随机的，不过对于客观标注任务，预期和随机的含义是相同的。

1.1 预期准确率的基线选择

预期准确率有三种基线：随机、数据频率和最频繁。计算这三个指标有助于我们直观了解数据情况。选择用于归一化准确率的正确指标，取决于具体任务和标注人员的经验。
- 当一个人刚开始进行任务时，他们对哪个标签更频繁没有直观认识，所以更可能接近随机标注。
- 一段时间后，他们会意识到某个标签比其他标签更频繁，在不确定时可能会放心猜测该标签。

实际建议是，等待标注人员熟悉任务后，应用最严格的基线，即最频繁的标签。可以将任务开始的前几分钟、几小时或几天视为标注人员的熟悉阶段。当标注人员对数据有强烈的直观认识时，他们会考虑标签的相对频率。不过，数据频率在计算整个数据集的一致性时更为相关。因此，理解所有基线并在合适的时间应用它们非常重要。

数据标注的高质量控制需要大量资源，应将其纳入预算。与标注数据的人员直接沟通很有帮助，因为有些指令在实践中可能行不通，需要与标注人员密切合作进行完善。而且，即使项目投入生产后，也可能需要不断完善指令并添加标注。如果不考虑完善指令和剔除错误标注的项目，可能会导致表面上廉价但实际昂贵的外包解决方案。

2. 标注者间一致性

数据科学家说他们的机器学习模型比人类更准确时，通常指的是模型比普通人更准确。例如，语音

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。