不同机器学习任务的标注质量控制
1. 机器学习任务的复杂性与标注需求
大多数机器学习任务比标注整个图像或文档更为复杂。以创造性地为电影生成字幕为例,创建口语和手语的转录属于语言生成任务;若要用粗体文本强调愤怒的语言,则是额外的序列标注任务;若要像漫画中的文字气泡一样显示转录内容,可能需要使用目标检测确保文字气泡来自正确的人物,还可能需要使用语义分割确保文字气泡放置在场景的背景元素之上。此外,还可能需要预测给定人员对电影的评分作为推荐系统的一部分,或者将内容输入搜索引擎以查找抽象短语(如励志演讲)的匹配项。
为了训练模型,这个简单的视频添加字幕应用就需要多种类型的标注。标注质量控制方法在不同机器学习任务中的应用各有特点,下面将先从连续数据标注开始介绍,再扩展到更复杂的机器学习场景。
2. 连续任务的标注质量控制
2.1 连续任务的地面真值
连续任务的地面真值通常以可接受的响应范围来实现。例如,在 0 - 100 分的情感分析任务中,如果是积极的项目,可将 80 - 100 范围内的任何标注视为正确,低于 80 的视为错误。这种方法可将质量控制视为类似图像/文档级别的标注,因此可应用相关的质量控制方法。
可接受范围取决于具体任务。如果要求人们读取图像中的数字(如时间、温度或电池电量),可能只允许精确匹配。
若已确定可接受答案的范围,可按标注任务的方式计算单个标注员的准确率,即计算他们在每个地面真值响应的可接受范围内的频率。
2.2 连续任务的一致性
如果数据是有序的(如三点“差”、“中性”、“好”量表),可参考相关的有序值示例,只需更改标签权重输入,即可从标注任务适应到连续
超级会员免费看
订阅专栏 解锁全文

845

被折叠的 条评论
为什么被折叠?



