机器翻译评估指标的前沿探索
1. 不同评估指标的特点
1.1 HTER与EDPM
HTER使用TER度量来计算假设翻译和人工目标参考之间的后期编辑工作,这原则上可能使HTER偏向于TER度量。而EDPM没有这样的优势,但在阿拉伯语和中文以及整个语料库中,EDPM在这三种度量中具有最佳相关性。
1.2 EDPM的未来改进方向
在DPM框架内,有多个方向可用于提高评分函数的质量:
- 增加解析替代方案的数量。
- 使用不同的解析器。
- 探索依赖树的其他(高阶)分割方式。
同时,评估分数对解析质量的敏感性也很有用,因为质量非常差的翻译可能难以解析。此外,还可以考虑将EDPM与其他试图解释单词选择允许变化的度量相结合。与许多最近提出的评估方法不同,EDPM不使用单词替换表或调整权重(除了上述的λ自由参数),但作为HTER变化的预测指标,它的表现明显优于BLEU和TER。
2. MULCH评估方法
2.1 简介
MULCH(“使用层次大块的度量”)旨在通过处理参考句子的句法结构而非将其视为单词串来改进自动机器翻译评估。该方法通过调整METEOR系统以使用Ontonotes项目中可用的参考句子的树库表示来测试这一假设。
METEOR有两个基本组件:
- 系统句子和参考句子之间的一元匹配,通过精确匹配和使用WordNet的宽松匹配来完成。
- “碎片化惩罚”,用于考虑单词顺序,试图捕捉诸如参数顺序错误等信息。
MULCH将参考句子的树分解为小的树片段,代表参数结构的核心部分,将附加语和参数分开。这对
超级会员免费看
订阅专栏 解锁全文
6047

被折叠的 条评论
为什么被折叠?



