33、高级数据标注与增强:提升数据质量的方法

高级数据标注与增强:提升数据质量的方法

1. 高级数据标注的指标与方法

1.1 Epsilon 的作用

在某些数据标注评估中,epsilon 有着重要作用。在之前的评估里,epsilon 是基于数据集中的总标注数量计算的。而现在,我们针对单个任务内的标注来计算 epsilon。通过对比原始分数和调整后的分数,可以发现 epsilon 能使结果产生 20% 的调整,影响显著。

1.2 评估标注准确性的方法

  • 分布估计的变化与扩展 :若想确切了解标注者对实际分布的估计准确性,可采用多种变化和扩展方法。由于每个标注者的预期标注分布总和需为 1,所以某些任务无法得到 0 分,即他们不能总是为每个标签提供最差的估计。此时,可以像处理基准真值准确性和一致性那样对这个基线进行归一化。
  • 交叉熵计算 :交叉熵是计算预期分布与实际分布差异的另一种方法。在机器学习中,交叉熵常用于比较概率分布,但很少用于比较训练数据的实际标注和预期标注,这是一个值得研究的领域。

1.3 贝叶斯真相血清(BTS)

BTS 是一种将实际标注和预期标注结合为单一分数的方法,由麻省理工学院的 Dražen Prelec 创立。它从信息论的角度计算分数,该分数不能直接用于解释标注者或标签的准确性。BTS 会寻找比标注者集体预测更常见的响应,这些响应不一定是最频繁的响应。

标注者 行人预期比例 行人实际比例
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值