机器翻译评估方法全解析
1. 机器翻译评估概述
机器翻译评估是一个历史悠久的任务,其目标是提高评估指标得分与人类对翻译质量判断之间的相关性。评估方法主要分为依赖人类判断和自动评估两类。依赖人类判断的方法包括直接判断系统输出质量、通过阅读测试或下游任务评估以及计算修正系统输出所需的工作量等;自动评估方法则基于MT系统输出与人类翻译的自动比较,如BLEU、NIST等。
2. 机器翻译评估的历史背景
- 早期实验 :早在1966年,就有关于人类对翻译可理解性和信息性进行评级的实验。20世纪90年代初,DARPA的MT评估开始使用人类主观判断来“评分”MT输出的语义准确性和流畅性。
- 常见人类评估指标
- 流畅性 :要求目标语言流利的说话者判断系统输出是否流畅,不考虑内容是否准确翻译源词。
- 充分性 :衡量源语言中的基本信息是否能从系统输出中提取,注释者通常需要具备源语言和目标语言的双语能力。
- 评分问题 :流畅性和充分性通常在五点或七点量表上进行判断,有时会取平均值给出系统输出的单一数值分数。但一些研究表明,注释者之间的相关性较差,该方法的可靠性受到质疑。
- 其他评估方法
- 后编辑 :通过修正系统输出来衡量翻译质量,但该方法需要人类注释者进行大
超级会员免费看
订阅专栏 解锁全文

5360

被折叠的 条评论
为什么被折叠?



