机器翻译指标或者image caption指标BLEU的原理和计算
参考:
《BLEU: a Method for Automatic Evaluation of Machine Translation》
计算方法(The Baseline BLEU Metric):
1、precision measure
为了计算精度,只需计算任何参考翻译中出现的候选翻译词(unigrams)的数量,然后除以候选翻译中的总词数。
2、Modified n-gram precision
先对原理总介绍,然后2.1-2.3分别介绍Modified n-gram precision在三种场景下的应用。
首先计算一个单词在任何单个参考翻译中出现的最大次数。 接下来,将每个候选词的总计数除以其最大参考计数,将这些截断的计数相加,然后除以候选词的总数(未截断)。
注:n-gram指的是将n个词作为一个整体,1-gram指的是一个词,2-gram指的是两个连起来的词。对应的matrix就是BLEU-n。BLEU-1更注重单个词的出现,BLEU-4更注重句子的流畅性。
总结:首先提出一种基本的计算方法,然后对其进行优化。优化的思路很重要(举极限的反例来证明):使用1的方法有一个问题,会导致机器翻译系统可能会过度生成“合理”的单词,导致翻译结果很差但精度很高,例如下面的示例2.1:如果使用1的方法计算:BLEU-1 = 7/7。使用2的方法计算:BLEU-1 = 2/7。显然candidate是很差的,使用2的计算结果更合理。
'''
示例2.1

最低0.47元/天 解锁文章
830





