翻译模型训练数据选择与系统组合方法解析
1. 翻译模型平行训练数据选择方法
在翻译模型的训练中,数据的选择至关重要。为了提高翻译模型的性能,提出了三种选择平行训练数据的方法:
1. 基于系统间翻译分歧的方法 :利用系统间翻译分歧的度量,挑选现有统计机器翻译(SMT)系统最难处理的数据。
2. 基于源端语言模型困惑度的方法 :使用源端语言模型困惑度度量,选择包含新信息的句子,同时避免与目标领域差异过大的异常值。
3. 结合前两种方法 :通过两种方法各选取等量的数据。
在实验中,这些方法能够选取 20% 的可用数据,实现的汉英翻译准确率与使用完整数据集训练的结果相当甚至更好。
基于系统间翻译分歧的方法还为研究提供了有趣的方向。可以使用通过该方法选择的额外平行训练数据,对用于测量分歧的不同 SMT 系统进行重新训练,并使用重新训练后的系统进行进一步的数据选择,这种过程更接近传统的主动学习技术。
2. 机器翻译系统组合方法
2.1 方法概述
在机器翻译领域,基于不同原理(如基于短语、层次结构、语法或示例的翻译)的系统已经取得了相近的翻译质量。不同的机器翻译方法会为每个源句子生成多种翻译假设,系统组合方法可以利用这种多样性来提高翻译质量。
所提出的方法将所有输入系统的 n - 最佳列表进行组合,然后根据多个特征得分逐句选择最佳假设。该方法独立于翻译系统的内部得分,除了 n - 最佳列表外,不需要输入系统的其他信息,这使得非统计翻译系统也能参与组合。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



