30、序列到序列学习——神经机器翻译

序列到序列学习——神经机器翻译

1. 神经机器翻译现状

在神经机器翻译(NMT)中,虽然翻译结果并非完美,但多数情况下能捕捉源句子的上下文,并且在生成语法正确的句子方面表现良好。例如:
- 真实英文句子:“Tux Racer will help you pass the time while you wait, and you can use OpenOffice for work.”
- 预测英文句子:“ .com we have a very friendly and helpful staff . ”

从BLEU分数随时间的变化图可以看出,训练集和测试集的BLEU分数都有明显的提升。

2. 联合词嵌入训练NMT

2.1 选择词嵌入库

有多个多语言词嵌入库可供选择,如Facebook的fastText和CMU多语言嵌入。由于CMU嵌入(约200 MB)比fastText(约5 GB)小很多,所以选择使用CMU嵌入。需要下载德语(multilingual_embeddings.de)和英语(multilingual_embeddings.en)的嵌入。

2.2 最大化数据集词汇与预训练嵌入的匹配

预训练词嵌入的词汇量可能很大,其中很多词可能不在数据集词汇中,因此需要获取与问题相关的预训练词嵌入子集。具体步骤如下:
1. 定义数组 :定义两个NumPy数组来保存源语言和目标语言的相关词嵌入:

import numpy as np
de_emb
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值