数据标注质量控制与高级处理策略
1. 数据标注工作流与质量控制基础
在数据标注领域,工作流的复杂度差异很大。曾见过一个用于自动驾驶车辆计算机视觉任务的工作流,包含约40个任务,除语义分割外,对每种被跟踪的对象都有多个处理步骤。
简单任务虽然在效率上有优势,但也存在用户体验方面的权衡。一方面,人们认可其高效性;另一方面,任务的重复性容易导致疲劳。而且,一些内部专家可能会对复杂任务被拆解为简单任务感到不满,认为这暗示他们没有能力在一个界面中完成所有步骤。此时,需要向他们说明,工作流的选择是出于获取机器学习优质训练数据的限制,而非对标注者专业能力的质疑。
数据标注质量控制是一个快速发展的领域,很多问题尚未解决。以下是一些相关的参考资料:
|资料名称|作者|链接|
| ---- | ---- | ---- |
|“Truth Is a Lie: Crowd Truth and the Seven Myths of Human Annotation”| Lora Aroyo和Chris Welty | http://mng.bz/NYq7 |
|“Let’s Agree to Disagree: Fixing Agreement Measures for Crowdsourcing”| Alessandro Checco、Kevin Roitero、Eddy Maddalena、Stefano Mizzaro和Gianluca Demartini | http://mng.bz/DRqa |
|“Computing Krippendorff’s Alpha - Reliability”| Klaus Krippendorff | http:
超级会员免费看
订阅专栏 解锁全文
1182

被折叠的 条评论
为什么被折叠?



