Neural Machine Translation by Jointly Learning to Align and Translate（注意力模型）论文阅读笔记

原创

于 2021-07-05 21:11:28 发布 · 204 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #深度学习

本文是关于Neural Machine Translation with Attention模型的阅读笔记。相较于seq2seq模型，注意力模型不再将源句子编码为固定长度向量，而是通过自适应选择源句子向量的子集，以解决长句子处理的难题。模型使用双向RNN编码输入序列，并在解码时通过注意力机制确定源句子中相关位置，以此预测目标词。解码过程包括计算注意力权重、上下文向量及生成目标词的概率。

一、背景

seq2seq模型：https://blog.youkuaiyun.com/zyk9916/article/details/118002934

在seq2seq模型中，encoder将整个源句子编码成一个固定长度的向量（即取encoder中的最后一个隐状态），然后送到decoder中解码。这种方法对使得长句子难以处理。

作者认为，将句子编码成定长的向量是提升模型性能的瓶颈，因此提出了注意力模型来改善这个限制。

作者提出的模型不将整个输入句子编码为一个固定长度的向量。相反，它将输入语句编码为一个向量序列，并在decode时自适应地选择这些向量的子集。每次在翻译中生成一个词时，都会搜索源句子中相关信息最集中的一组位置。然后，该模型根据与这些源位置相关的上下文向量和之前生成的所有目标词来预测目标词。

二、模型

Encoder：

输入序列：
在这里插入图片描述

采用双向RNN模型，对输入序列进行编码，得到一系列隐状态：

在这里插入图片描述

Decoder：

生成一个词y_i的过程：

① 注意力机制：
根据s_i-1（Decoder中上一个词的隐状态），对每一个h_j（Encoder中第j个隐状态）计算一个e_ij</

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。