数据标注质量控制:多维度策略与方法
在数据标注过程中,确保标注数据的质量对于机器学习模型的训练和性能至关重要。本文将深入探讨数据标注质量控制的多个方面,包括多标注聚合、标注者多样性、专家审核以及多步骤工作流等内容。
多标注聚合创建训练数据
当多个标注者对同一数据项进行标注时,标注结果的一致性和准确性是关键。通常情况下,当所有标注者达成一致时,我们对标注标签的信心并非总是 99.9%。例如,当三个标注者都达成一致时,我们对标签的信心可能为 98.2%,这意味着错误率从每 1000 项中的 1 项增加到约每 55 项中的 1 项。
然而,也可能出现错误模式发散的情况。假设三个标注者的个体准确率均为 90%,但他们会犯不同的错误。一个标注者在识别“标志”时容易出错,而另一个标注者可能在识别“动物”时出错。由于他们可能在不同的图像上出错,因此错误同时发生的概率仅为 2%,通过计算 1 – (0.1 × 0.02 × 0.02) = 0.99996,我们可以得出在这种情况下,当标注者达成一致时,我们可以有 99.996% 的信心认为标注是正确的,即每 25000 项中才会出现 1 次错误。
多样化标注者与低一致性的数学原理
标注者之间的错误模式存在很大差异。在相同的每标注误差率基础上,准确性最高的数据往往一致性最低。这是因为错误分散开来,增加了不一致的可能性,从而导致 Krippendorff’s alpha 分数较低。例如,在示例数据中,Krippendorff’s alpha 分数为 0.803,但当我们将不一致性分散,使每个任务最多只有一个不一致时,该分数降至 0.685。尽管数据中每个标签的频率相同且多数标注更可靠,但数据集看起来却不那么
超级会员免费看
订阅专栏 解锁全文
933

被折叠的 条评论
为什么被折叠?



