28、翻译模型训练数据选择与系统组合方法解析

nft7creator

于 2025-09-29 10:04:05 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言处理与机器翻译文章标签：翻译模型数据选择系统组合

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/nft7creator/article/details/155011272

自然语言处理与机器翻译专栏收录该内容

79 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

翻译模型训练数据选择与系统组合方法解析

1. 翻译模型平行训练数据选择方法

在翻译模型的训练中，数据的选择至关重要。为了提高翻译模型的性能，提出了三种选择平行训练数据的方法：
1. 基于系统间翻译分歧的方法 ：利用系统间翻译分歧的度量，挑选现有统计机器翻译（SMT）系统最难处理的数据。
2. 基于源端语言模型困惑度的方法 ：使用源端语言模型困惑度度量，选择包含新信息的句子，同时避免与目标领域差异过大的异常值。
3. 结合前两种方法 ：通过两种方法各选取等量的数据。

在实验中，这些方法能够选取 20% 的可用数据，实现的汉英翻译准确率与使用完整数据集训练的结果相当甚至更好。

基于系统间翻译分歧的方法还为研究提供了有趣的方向。可以使用通过该方法选择的额外平行训练数据，对用于测量分歧的不同 SMT 系统进行重新训练，并使用重新训练后的系统进行进一步的数据选择，这种过程更接近传统的主动学习技术。

2. 机器翻译系统组合方法

2.1 方法概述

在机器翻译领域，基于不同原理（如基于短语、层次结构、语法或示例的翻译）的系统已经取得了相近的翻译质量。不同的机器翻译方法会为每个源句子生成多种翻译假设，系统组合方法可以利用这种多样性来提高翻译质量。

所提出的方法将所有输入系统的 n - 最佳列表进行组合，然后根据多个特征得分逐句选择最佳假设。该方法独立于翻译系统的内部得分，除了 n - 最佳列表外，不需要输入系统的其他信息，这使得非统计翻译系统也能参与组合。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。