不同机器学习任务的标注质量控制
在机器学习领域,大多数任务比简单地标注整个图像或文档要复杂得多。以给电影添加创意字幕为例,这不仅涉及语言生成任务(将口语和手语转录成文字),还可能包括序列标注任务(如用粗体突出愤怒的语言)。此外,为了让字幕显示得像漫画中的对话框,可能需要使用目标检测确保对话框来自正确的人物,使用语义分割确保对话框放置在场景的背景元素之上。同时,还可以将内容用于推荐系统预测用户对电影的评分,或者输入搜索引擎以查找抽象短语的匹配项。为了训练完成这些任务的模型,需要多种类型的标注。下面将详细介绍不同机器学习任务的标注质量控制方法。
连续任务的标注质量
当对连续数据进行标注时,许多质量控制策略与图像或文档级别的标注有相似之处,但在确定真实值、一致性、主观性以及聚合多个判断等方面存在重要差异。
1. 连续任务的真实值
连续任务的真实值通常以可接受的响应范围来实现。例如,在 0 - 100 分的情感分析任务中,如果是积极的项目,可将 80 - 100 范围内的任何标注视为正确,低于 80 的则视为错误。这种方法可以将质量控制视为标注任务,从而应用相关的质量控制方法。可接受范围取决于具体任务,如果是让人们读取图像中的数字(如时间、温度或电池电量),可能只允许精确匹配。确定了可接受答案的范围后,可以按照标注任务的方式计算单个标注员的准确率,即计算他们的标注在每个真实值响应的可接受范围内的频率。
2. 连续任务的一致性
如果数据是有序的(如三点量表:“差”、“中性”、“好”),可以参考相关方法计算一致性。可以将彼此在可接受范围内的两个标注视为一致,并使用相关方法计算一致性。对于预期一致性,可以计算随机落在给定范围内
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



