不同机器学习任务的标注质量
1. 语言生成任务的标注质量
1.1 基础标注策略
为保证标注质量,通常需要为评估数据创建多个基准真值示例。根据任务类型,这些示例可以是一个句子的多种有效翻译、较长文本的多个摘要,或者聊天机器人对提示的多个回复。具体操作步骤如下:
1. 要求每个标注员提出多种解决方案。
2. 同时将任务分配给多个标注员。
3. 对于更复杂的质量控制,可以让专家对基准真值数据示例的质量进行排名,并将该排名纳入评估指标。
1.2 标注者一致性与聚合
在语言生成任务本身中,标注者之间的一致性很少被使用,但可用于评估生成文本的质量。具体说明如下:
- 理论评估 :可以使用 BLEU、余弦距离或其他指标,通过比较标注员的文本与其他标注员的文本来跟踪标注员之间的分歧。
- 实际操作 :让专家快速审查输出质量会更容易。
将多个语言生成输出聚合为单个训练数据项通常没有意义。如果模型需要单段文本,通常会从示例中选择最佳候选。虽然可以通过编程完成此任务,但实际中很少这样做。若有多个标注员为同一任务生成文本,让一位专家选择最佳输出所需的额外时间很少。
1.3 机器学习与迁移学习
手动创建语言生成数据非常耗时,而机器学习可以大大加快这一过程。例如,手机或电子邮件客户端提供的预测下一个单词或句子完成功能,就是人在回路序列生成的应用。应用程序可能会使用迁移学习,从通用的句子完成算法开始,逐渐使模型适应你的文本。
可以通过多种方式实现这种架构,不一定需要像句子完成
超级会员免费看
订阅专栏 解锁全文
4万+

被折叠的 条评论
为什么被折叠?



