数据标注质量控制与聚合策略
在数据标注过程中,如何确保标注数据的质量以及如何有效聚合多个标注结果来创建高质量的训练数据是至关重要的问题。下面将详细介绍数据标注中的多个关键方面,包括标注聚合、标注者差异、专家评审以及多步骤工作流程等内容。
1. 聚合多个标注以创建训练数据
当多个标注者对同一数据进行标注时,标注结果的一致性和准确性会受到多种因素的影响。
1.1 标注者一致时的置信度变化
当三个标注者都达成一致时,我们对标注标签的置信度可能并非是理想中的 99.9%,而是 98.2%。这意味着错误率从每 1000 个项目中有一个错误,变为大约每 55 个项目中有一个错误。
1.2 错误模式发散的情况
假设三个标注者各自的准确率仍为 90%,但他们会犯不同的错误。例如,一个标注者在识别“标志”时容易出错,而另一个标注者可能在识别“动物”时出错。由于他们在不同的图像上犯错,错误同时发生的概率为 2%,通过计算 1 – (0.1 × 0.02 × 0.02) = 0.99996 可知,在这种标注者技能互补的情况下,我们可以有 99.996% 的置信度认为标注者之间的一致意见意味着标注是正确的,即每 25000 个项目中才会出现一次错误。
2. 多样化标注者与低一致性的数学原理
不同标注者之间的错误模式存在很大差异。从数学角度证明,拥有多样化的标注者集合会产生更准确的数据。
在每个标注的总体错误率相同的情况下,准确率最高的数据往往一致性最低。这是因为错误分布得更分散,从而产生更多的分歧机会。这种情况下,Krippendorff’s alpha 得分会最低,这也说
超级会员免费看
订阅专栏 解锁全文
8781

被折叠的 条评论
为什么被折叠?



