34、高级数据标注与增强:模型预测与嵌入表示的应用

高级数据标注与增强:模型预测与嵌入表示的应用

1. 预测标注一致性与识别机器人标注者

1.1 预测单个标注的一致性

在数据标注过程中,除了预测标注者是否正确,还可以预测标注者之间是否达成一致。这种方法能增加训练项的数量,因为可以训练模型对多人标注的所有项进行一致性预测,而不仅仅局限于真实数据中的项。这样的模型可能更强大。

预测一致性有助于发现那些本应存在分歧但实际没有的项。也许少数标注者达成一致只是随机事件。如果能有把握地预测应该存在分歧,即使是未参与该任务的标注者,这一发现也可作为需要对该项进行额外标注的证据。

可以尝试两种方法:构建一个预测标注者何时正确的模型,以及构建一个预测标注者何时会与其他标注者达成一致的模型。当预测到某个标注是错误的,或者与其他标注存在分歧时,就可以对任务进行审查或获取额外的标注。

1.2 预测标注者是否为机器人

在与匿名标注者合作时,如果发现某个标注者实际上是一个骗取工作的机器人,可以创建一个二分类任务来识别其他机器人。例如,若发现标注数据中的 “Dancer” 是一个机器人,可能会怀疑同一个机器人伪装成了其他人类标注者。

如果确定某些标注者是人类,他们的标注可以成为模型的人类训练数据。这种方法可以有效地训练模型来询问标注者:“你是人类,还是 ‘Dancer’?”

不过,有时机器人也是标注团队的有益补充。机器学习模型可以自主地对数据进行标注或创建数据,也可以与人类合作完成。

2. 将模型预测作为标注

2.1 信任置信度高的模型预测标注

将模型作为标注者的最简单方法是将模型的预测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值