不同机器学习任务的标注质量控制
在机器学习领域,大多数任务比简单地标注整个图像或文档要复杂得多。以创造性地为电影生成字幕为例,这不仅涉及语言生成任务,还可能包括序列标注、对象检测和语义分割等多个任务。为了训练有效的模型,需要多种类型的标注数据,而标注质量的控制对于模型的性能至关重要。
1. 连续任务的标注质量控制
连续数据的标注质量控制策略与图像或文档级别的标注有相似之处,但在地面真值、一致性、主观性和多判断聚合等方面存在重要差异。
1.1 连续任务的地面真值
连续任务的地面真值通常以可接受的响应范围来实现。例如,在 0 - 100 分的情感分析任务中,对于积极的项目,可以接受 80 - 100 分的标注为正确,低于 80 分的为错误。这种方法可以将质量控制视为标注任务,从而应用相关的质量控制方法。可接受范围取决于具体任务,如读取图像中的数字时,可能只允许精确匹配。确定可接受答案范围后,可以像计算标注任务的准确率一样计算单个标注员的准确率,即计算其标注落在每个地面真值响应可接受范围内的频率。
1.2 连续任务的一致性
对于有序数据,如“坏”、“中立”、“好”的三点量表,可以参考相关示例,只需更改标签权重输入即可从标注任务适应到连续任务。与地面真值数据类似,可以将彼此在可接受范围内的两个标注视为一致,并使用相关方法计算一致性。对于预期一致性,可以计算随机落在给定范围内的标注数量。数据的分布特性允许进行更详细的一致性计算,如果数据呈正态分布,可以使用标准差代替范围。
1.3 连续任务的主观性
连续数据集可能是确定性的或主观的,甚至在一个数据集中可能同时存在这两种情况。对于本
超级会员免费看
订阅专栏 解锁全文
843

被折叠的 条评论
为什么被折叠?



