高级数据标注与增强:模型预测与嵌入表示的应用
1. 预测标注一致性与识别机器人标注者
1.1 预测单个标注的一致性
在数据标注过程中,除了预测标注者是否正确,还可以预测标注者之间是否达成一致。这种方法能增加训练项的数量,因为可以训练模型对多人标注的所有项进行一致性预测,而不仅仅局限于真实数据中的项。这样的模型可能更强大。
预测一致性有助于发现那些本应存在分歧但实际没有的项。也许少数标注者达成一致只是随机事件。如果能有把握地预测应该存在分歧,即使是未参与该任务的标注者,这一发现也可作为需要对该项进行额外标注的证据。
可以尝试两种方法:构建一个预测标注者何时正确的模型,以及构建一个预测标注者何时会与其他标注者达成一致的模型。当预测到某个标注是错误的,或者与其他标注存在分歧时,就可以对任务进行审查或获取额外的标注。
1.2 预测标注者是否为机器人
在与匿名标注者合作时,如果发现某个标注者实际上是一个骗取工作的机器人,可以创建一个二分类任务来识别其他机器人。例如,若发现标注数据中的 “Dancer” 是一个机器人,可能会怀疑同一个机器人伪装成了其他人类标注者。
如果确定某些标注者是人类,他们的标注可以成为模型的人类训练数据。这种方法可以有效地训练模型来询问标注者:“你是人类,还是 ‘Dancer’?”
不过,有时机器人也是标注团队的有益补充。机器学习模型可以自主地对数据进行标注或创建数据,也可以与人类合作完成。
2. 将模型预测作为标注
2.1 信任置信度高的模型预测标注
将模型作为标注者的最简单方法是将模型的预测
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



