统计机器翻译中的词汇语义学:提升翻译质量的新途径
1. 基于超图的判别式重排序
在基于超图的判别式重排序中,特征选择是一项关键操作。从测试集(MT03 - MT06)中,我们为语言模型(LM)和双向语言模型(BLM)选择了150万个特征,为翻译模型(TM)选择了180万个特征。
从表2.50可以看出,基于超图的判别式训练在所有三个测试集上都优于基线模型,但在BLEU指标上的提升略低于基于n - best的训练。这可能是因为基于超图的训练产生了比基于n - best训练更多的特征,从而导致过拟合。此外,目前所有的特征都是“局部”的,有研究也发现,在单语解析中,仅使用局部特征时,基于森林的重排序并不优于基于n - best的重排序。
我们提出了一个可扩展的判别式训练框架,可用于基于n - best和基于超图的重排序。在基于超图的重排序中,我们采用了一种oracle提取算法,从超图中高效提取oracle树。为了使基于超图的方法具有可扩展性,我们采用了几种高效算法,包括超图剪枝、数据选择和特征选择。实验表明,基于n - best和基于超图的重排序都比最先进的全规模分层机器翻译系统有所改进,但基于超图的重排序表现不如基于n - best的重排序,这一现象令人惊讶,其原因还有待进一步研究。
| 训练方法 | 测试集 | BLEU提升情况 |
|---|---|---|
| 基于超图的判别式训练 | MT03 - MT06 | 优于基线,但略低于n - best训练 < |
超级会员免费看
订阅专栏 解锁全文
676

被折叠的 条评论
为什么被折叠?



