高级数据标注与增强:技术解析与应用策略
1. 数据标注预测策略
1.1 预测单一标注是否一致
在数据标注过程中,除了预测标注者是否正确,还可以预测标注者之间是否达成一致。这种方法能够增加训练项的数量,因为可以训练一个模型来预测所有由多人标注的项的一致性,而不仅仅是真实数据中的项。这样的模型可能更强大。
预测一致性有助于发现那些本应存在分歧但实际上没有的项。也许少数标注者偶然达成了一致,如果能自信地预测出应该存在分歧,即使是未参与该任务的标注者,这也表明该项可能需要额外的标注。
可以尝试两种方法:构建一个预测标注者何时正确的模型,以及另一个预测标注者何时会与其他标注者达成一致的模型。当预测到某个标注是错误的,或者与其他标注存在分歧时,就可以对任务进行审查或获取额外的标注。
1.2 预测标注者是否为机器人
如果与匿名标注者合作,并且发现其中一个标注者实际上是在欺骗工作的机器人,就可以创建一个二分类任务来识别其他机器人。例如,如果发现标注数据中的 “Dancer” 是一个机器人,可能会怀疑同一个机器人在冒充其他人类标注者。
如果确定某些标注者是人类,他们的标注可以成为模型的人类训练数据。这种方法可以有效地训练一个模型来询问标注者:“你是人类,还是 Dancer?”
有时候,机器人是标注团队的有益补充。机器学习模型可以自主地或与人类结合对数据进行标注或创建数据。
2. 将模型预测作为标注
2.1 信任高置信度模型预测的标注
将模型用作标注者的最简单方法是将模型预测视为标签,信任超过一定置信度阈值的预测作为标签。这种
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



