统计机器翻译的数据选择方法研究
1. 引言
统计机器翻译(SMT)模型依赖平行数据来估计源语言句子对应的目标语言句子的概率。传统上,提高SMT系统性能的方法是增加平行语料库的规模,但获取大量高质量的平行训练数据成本高昂,因为需要人工参与生成可靠的翻译。因此,如何选择最有益的数据进行翻译,以最有效地利用人力资源,是SMT领域的一个重要问题。
2. 相关工作
平行数据收集或数据选择的相关研究可分为以下三类:
- 自动数据收集 :通过识别多语言网页中内容相似的页面,提取相互翻译的句子,但这种自动方法并不完美,会生成有错误的平行训练数据。
- 领域/测试集适配 :将翻译模型或语言模型适配到给定的测试集或领域,常见方法包括使用信息检索技术选择与测试集最相似的平行训练数据,或为训练语句对分配权重等。
- 翻译数据选择 :选择新的源句子进行人工翻译以提高SMT系统性能,此前的工作主要是基于n - gram覆盖的方法,选择具有最多未观察到的n - gram的句子。
3. 新的数据选择方法
为了提高已达到合理翻译性能水平的SMT系统的性能,提出了两种新的数据选择方法:
- 基于系统间分歧的方法 :受主动学习技术启发,使用一组不同的SMT系统对保留语料进行翻译,通过计算系统间的分歧来选择最具信息性的训练句子。具体步骤如下:
1. 准备N个不同的SMT系统S,使用相同(或相似)的初始源语言训练数据集Di进行训练。
2. 用这些系统翻译保留语料Dh
统计机器翻译数据选择方法
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



