32、数据标注质量控制与高级应用

数据标注质量控制与优化

数据标注质量控制与高级应用

1. 数据标注工作流与质量控制基础

在数据标注领域,工作流的复杂度差异很大。最复杂的工作流可能包含约 40 个任务,例如用于自动驾驶车辆的计算机视觉任务,除了语义分割外,针对每种被跟踪的对象类型还有多个步骤。

而较简单的任务在用户体验方面存在一些权衡。一般来说,人们欣赏其效率,但这些任务感觉更重复,容易导致疲劳。此外,一些人,特别是内部的主题专家(SME),可能会对过去执行的复杂任务被拆分为简单任务感到不满,他们可能会认为这意味着自己没有足够的能力在一个界面中解决所有步骤。在这种情况下,需要向他们说明,工作流的选择是由于获取机器学习优质训练数据的限制,而不是因为标注者的专业能力不足。

1.1 数据标注质量控制要点总结

  • 使用地面真值示例 :地面真值示例是已知答案的任务。通过为数据集创建地面真值示例,可以评估标注者的准确性,为标注者制定指南,并更好地校准其他质量控制技术。
  • 计算多种协议 :在数据集中有多种计算协议的方法,包括总体协议、标注者之间的协议、标签之间的协议以及任务级别的协议。理解每种协议类型有助于计算训练和评估数据的准确性,并更好地管理标注者。
  • 设置随机基线 :对于任何评估指标,应计算随机情况下可能出现的预期结果作为基线。这种方法可以将准确性/协议指标归一化为针对随机情况调整后的分数,使分数在不同任务之间更易于比较。
  • 结合地面真值和标注者间协议 :同时使用地面真值数据和标注者间协议能获得最
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值