数据标注质量控制与聚合方法解析
1. Krippendorff’s alpha的拓展应用
Krippendorff’s alpha不仅适用于互斥标注任务,还能用于更复杂的任务。通过改变其公式中的标签权重,可以处理序数和旋转数据。然而,该指标用于训练数据时存在不足。它最初是为学校随机分配试卷给多个评分者的场景设计的,没有考虑到不同标注者基于所见内容可能有不同的预期一致性。在创建训练数据时,我们常常会非随机地分配标注任务,例如将难题交给更多人裁定。
1.1 不同类型分类任务的标签权重应用
| 分类任务类型 | 示例 | 标签权重应用 |
|---|---|---|
| 互斥标注任务 | 重复之前示例的标签权重 | 按常规方式计算一致性 |
| 序数尺度任务 | 从“Bad”到“Excellent” | 对相邻标注给予部分分数,如“Good”和“Excellent” |
| 旋转类别任务 | 罗盘方向 | 偏离90度的标注给予部分分数,如“North”和“West”;偏离180度的标注给予零分,如“North”和“South” |
2. 个体标注者一致性
个体标注者层面的一致性在多方面有重要
超级会员免费看
订阅专栏 解锁全文
4077

被折叠的 条评论
为什么被折叠?



