27、统计机器翻译的数据选择方法研究

统计机器翻译数据选择方法

统计机器翻译的数据选择方法研究

1. 引言

统计机器翻译(SMT)模型依赖平行数据来估计源语言句子对应的目标语言句子的概率。传统上,提高SMT系统性能的方法是增加平行语料库的规模,但获取大量高质量的平行训练数据成本高昂,因为需要人工参与生成可靠的翻译。因此,如何选择最有益的数据进行翻译,以最有效地利用人力资源,是SMT领域的一个重要问题。

2. 相关工作

平行数据收集或数据选择的相关研究可分为以下三类:
- 自动数据收集 :通过识别多语言网页中内容相似的页面,提取相互翻译的句子,但这种自动方法并不完美,会生成有错误的平行训练数据。
- 领域/测试集适配 :将翻译模型或语言模型适配到给定的测试集或领域,常见方法包括使用信息检索技术选择与测试集最相似的平行训练数据,或为训练语句对分配权重等。
- 翻译数据选择 :选择新的源句子进行人工翻译以提高SMT系统性能,此前的工作主要是基于n - gram覆盖的方法,选择具有最多未观察到的n - gram的句子。

3. 新的数据选择方法

为了提高已达到合理翻译性能水平的SMT系统的性能,提出了两种新的数据选择方法:
- 基于系统间分歧的方法 :受主动学习技术启发,使用一组不同的SMT系统对保留语料进行翻译,通过计算系统间的分歧来选择最具信息性的训练句子。具体步骤如下:
1. 准备N个不同的SMT系统S,使用相同(或相似)的初始源语言训练数据集Di进行训练。
2. 用这些系统翻译保留语料Dh

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值