《BLEU: a Method for Automatic Evaluation of Machine Translation》翻译

0. 摘要

对机器翻译进行的人工评估虽然全面,但成本高昂。人工评估可能需要数月才能完成,并且涉及无法重复使用的人力劳动。我们提出了一种自动化的机器翻译评估方法,该方法快速、廉价、与语言无关,与人工评估高度相关,并且每次运行的边际成本很低。我们将这种方法作为熟练人类评审员的自动替代,当需要快速或频繁评估时,可以替代他们进行评估。

1. 引言

1.1 理由

对机器翻译(MT)的人工评估权衡了翻译的许多方面,包括翻译的充分性、忠实度和流畅性(Hovy, 1999;White 和 O’Connell, 1994)。Reeder(2001)提供了一个全面的机器翻译评估技术目录及其丰富的文献。大多数情况下,这些不同的人工评估方法都相当昂贵(Hovy, 1999)。此外,它们可能需要数周或数月才能完成。这是一个大问题,因为机器翻译系统的开发者需要监控系统的日常变化效果,以便从中筛选出好的想法并剔除坏的想法。我们相信,机器翻译的进步源于评估,而目前有大量有益的研究思路因评估瓶颈而无法释放。开发者将从一种廉价、快速、与语言无关且与人工评估高度相关的自动评估中受益。在本文中,我们提出了这样一种评估方法。

1.2 观点

如何衡量翻译性能?机器翻译越接近专业人类翻译,效果越好。这是我们提案的核心思想。为了判断机器翻译的质量,我们使用数值指标来测量其与一个或多个参考人类翻译的接近程度。因此,我们的 MT 评估系统需要两个组件:

  1. 数值的「翻译接近度」指标
  2. 高质量人类参考翻译的语料库

我们将接近度指标设计成类似于语音识别领域广泛使用的词错误率指标,适当地修改以适应多参考翻译,并允许在词汇选择和词序上的合理差异。主要思想是使用加权平均的可变长度短语匹配来对比参考翻译。这种方法催生了一系列使用不同加权方案的指标。我们从中选择了一个有前景的基准指标。

在第 2 节中,我们详细描述了基准指标。在第 3 节中,我们评估了 BLEU 的性能。在第 4 节中,我们描述了一项人类评估实验。在第 5 节中,我们将基准指标的性能与人类评估进行了比较。

2. 基准 BLEU 指标

通常,给定一个源句子,存在许多「完美」的翻译,这些翻译在词汇选择或顺序上可能有所不同,即使使用相同的词。然而,人类可以清楚地区分好的翻译和差的翻译。例如,考虑以下两个中文源句子的候选翻译:

例1:

  • 候选1: It is a guide to action which ensures that the military always obeys the commands of the party.
  • 候选2: It is to insure the troops forever hearing the activity guidebook that party direct.

虽然它们看起来是关于同一主题,但质量差异显著。为了比较,这里有三个相同句子的参考人类翻译:

  • 参考1: It is a guide to action that ensures that the military will forever heed Party commands.
  • 参考2: It is the guiding principle which guarantees the military forces always being under the command of the Party.
  • 参考3: It is the practical guide for the army always to heed the directions of the party.

候选 1 与这三个参考翻译共享许多词和短语,而候选 2 则没有。我们将在第 2.1 节中量化这种共享的概念。例如,候选 1 与参考 1 共享「It is a guide to action」,与参考 2 共享「which」,与参考 1 共享「ensures that the military」,与参考 2 和 3 共享「always」,与参考1共享「commands」,以及与参考 2 共享「of the party」(忽略大小写)。相比之下,候选 2 的匹配显著少且程度较低。

显然,只需比较每个候选翻译与参考翻译之间的 n-gram 匹配,一个程序就可以将候选翻译 1 排在候选翻译 2 之前。第 5 节中展示的大量翻译集合的实验表明,这种排名能力是一种普遍现象,而不是几个简单例子的产物。对 于BLEU 实现者来说,主要的编程任务是比较候选翻译的 n-gram 与参考翻译的 n-gram,并计算匹配的数量。这些匹配是位置无关的。匹配越多,候选翻译就越好。为了简化起见,我们首先关注计算单词匹配(unigram matches)。

2.1 修正的 n-gram 精度

我们指标的基石是熟悉的精度测量。要计算精度,需要计算出现在任何参考翻译中的候选翻译词(unigrams)的数量,并除以候选翻译中的总词数。然而,MT 系统可能会过度生成「合理」的词,导致不太可能但高精度的翻译。为了解决这个问题,我们引入了修正的unigram 精度。这涉及计算一个词在任何单个参考翻译中出现的最大次数,将每个候选词的总计数剪切到其最大参考计数,汇总这些剪切后的计数,并除以候选词的总数。

例2:

  • 候选: the the the the the the the.
  • 参考1: The cat is on the mat.
  • 参考2: There is a cat on the mat.

修正的 Unigram 精度 = 2/7。

在例 1 中,候选 1 的修正 unigram 精度为 17/18,而候选 2 的修正 unigram 精度为 8/14。同样,例 2 中的候选的修正 unigram 精度为 2/7,尽管其标准 unigram 精度为 7/7。

修正的 n-gram 精度对于任何 n 的计算方式类似:收集所有候选 n-gram 计数及其对应的最大参考计数,按其对应的参考最大值剪切,汇总,并除以候选 n-gram 的总数。在例 1 中,候选 1 的修正 bigram 精度为 10/17,而候选 2 的修正 bigram 精度为 1/13。在例 2 中,候选的修正 bigram 精度为0。

这种修正的 n-gram 精度评分捕捉了翻译的两个方面:充分性和流畅性。使用与参考相同词(1-grams)的翻译倾向于满足充分性,而更长的 n-gram 匹配则考虑了流畅性。

2.1.1 对文本块的修正 n-gram 精度

为了在多句测试集中计算修正的 n-gram 精度,我们在整个文档的语料库上评估 MT 系统,但我们的基本评估单位是句子。我们逐句计算 n-gram 匹配,汇总所有候选句子的剪切 n-gram 计数,并除以测试语料库中的候选 n-gram 总数,以计算整个测试语料库的修正精度得分,( p n p_n pn )。

p n = ∑ C ∈ { C a n d i d a t e s } ∑ n - g r a m ∈ C C o u n t c l i p ( n - g r a m ) ∑ C ′ ∈ { C a n d i d a t e s } ∑ n - g r a m ′ ∈ C ′ C o u n t ( n - g r a m ′ ) p_n = \frac{\sum_{C \in \{Candidates\}} \sum_{n\text{-}gram \in C} Count_{clip}(n\text{-}gram)}{\sum_{C' \in \{Candidates\}} \sum_{n\text{-}gram' \in C'} Count(n\text{-}gram')} pn=C{ Candidates}

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值