机器翻译评估方法解析
在机器翻译领域,评估翻译质量至关重要。不同的评估方法各有特点,下面将详细介绍几种常见的评估方法及其应用。
1. CDER评估方法
寻找长跳对齐网格中的最优路径是一个NP难问题,但CDER采用了一种运行时间合适的方法,同时仍能保证计算指标的完整性。其核心思想是放宽对齐路径的一些限制。
长跳距离和Levenshtein距离都要求参考翻译和候选翻译完全且不相交地覆盖。但在通过块移动扩展度量时,CDER对候选翻译放宽了这一约束。即只有参考句子中的单词必须被精确覆盖一次,而候选句子中的单词可以被覆盖零次、一次或多次。这种约束的放宽使得距离计算更加高效。CDER只对候选句子放宽约束,而不对参考句子放宽,是为了防止参考信息的遗漏,并且参考翻译不会包含不必要的块重复。
CDER可以看作是一种侧重于召回率的度量方法,而像BLEU这样的方法则侧重于精确率。CDER基于Lopresti和Tomkins引入的$CD$距离。寻找最优解的问题可以在$O(I^2 \cdot J)$时间内解决,其中$I$是候选句子的长度,$J$是参考句子的长度。通过对Levenshtein算法的改进,时间复杂度可以进一步降低到$O(I \cdot J)$。
2. 半自动化评估方法 - HTER
HTER(Human - mediated Translation Error Rate)是TER的一种人工参与的变体,也用于评估机器翻译系统。HTER需要单语人类注释者创建针对特定系统输出的参考翻译。这些目标参考翻译是通过对系统输出进行最少的编辑来创建的,以使其既流畅又保留其他参考翻译的含义。由于使用最少的编辑来纠正系统输出,创建目标参考翻译可以看作
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



