28、翻译模型训练数据选择与系统组合方法解析

翻译模型训练数据选择与系统组合方法解析

1. 翻译模型平行训练数据选择方法

在翻译模型的训练中,数据的选择至关重要。为了提高翻译模型的性能,提出了三种选择平行训练数据的方法:
1. 基于系统间翻译分歧的方法 :利用系统间翻译分歧的度量,挑选现有统计机器翻译(SMT)系统最难处理的数据。
2. 基于源端语言模型困惑度的方法 :使用源端语言模型困惑度度量,选择包含新信息的句子,同时避免与目标领域差异过大的异常值。
3. 结合前两种方法 :通过两种方法各选取等量的数据。

在实验中,这些方法能够选取 20% 的可用数据,实现的汉英翻译准确率与使用完整数据集训练的结果相当甚至更好。

基于系统间翻译分歧的方法还为研究提供了有趣的方向。可以使用通过该方法选择的额外平行训练数据,对用于测量分歧的不同 SMT 系统进行重新训练,并使用重新训练后的系统进行进一步的数据选择,这种过程更接近传统的主动学习技术。

2. 机器翻译系统组合方法

2.1 方法概述

在机器翻译领域,基于不同原理(如基于短语、层次结构、语法或示例的翻译)的系统已经取得了相近的翻译质量。不同的机器翻译方法会为每个源句子生成多种翻译假设,系统组合方法可以利用这种多样性来提高翻译质量。

所提出的方法将所有输入系统的 n - 最佳列表进行组合,然后根据多个特征得分逐句选择最佳假设。该方法独立于翻译系统的内部得分,除了 n - 最佳列表外,不需要输入系统的其他信息,这使得非统计翻译系统也能参与组合。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值