GALE机器翻译评估:从TER到HTER及后期编辑流程解析
1. 引言
在当前的机器翻译(MT)技术评估中,人工评分工作至关重要。尽管如今人工对MT输出进行后期编辑成本较高,但与上世纪六十年代相比已有很大进步。当时Georgetown大学的MT项目在努力8年后,于1962年尝试产出有用输出时,不得不进行后期编辑,且后期编辑的翻译耗时更长、成本更高。
2. 从TER到HTER
- TER的定义 :TER是衡量将原始MT输出编辑成与人工参考翻译完全匹配时的编辑距离。评分软件仅简单比较原始MT输出和参考翻译。
- HTER的提出 :然而,MT系统输出无需与参考翻译逐字匹配就能传达完整意思。GALE的MT评估指标HTER,衡量的是使MT输出与参考翻译意思一致且同样易于理解所需的最少编辑次数。
- HTER的计算 :在评估多个MT系统处理相同输入的输出时,计算HTER需将每个系统的编辑次数除以参考翻译的单词数,而非原始系统翻译的单词数,以实现分数的直接比较。例如,若系统翻译为 “They traveled to Mexico”,参考翻译为去西班牙,有一处编辑,该例HTER分数为25%(1次错误除以4个标记词);若系统翻译为 “The group undertook a trip and traveled to the country of Mexico”,同样一处编辑,HTER分数为8%(1次错误除以12个标记词)。
3. 后期编辑指南
- 指南设计目标
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



