注意力机制论文笔记：Neural Machine Translation by Jointly Learning to Align and Translate

最新推荐文章于 2024-07-15 06:00:00 发布

原创

最新推荐文章于 2024-07-15 06:00:00 发布 · 1.3k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#注意力机制 #机器翻译 #论文笔记 #自然语言处理

本文解析了注意力机制在自然语言处理领域的应用，特别是在机器翻译中的创新。通过引入注意力机制，模型能在解码阶段针对性地关注原文的不同部分，提高翻译质量。文章详细介绍了注意力机制的工作原理，包括其在神经机器翻译模型中的实现方式。

论文原文镇四方，~~大神护我科研顺利，顶会约稿~~~~

这是注意力机制落地到自然语言处理的一篇论文，好像是第一篇，没有考究。

论文中心思想：在传统的机器翻译模型（encoder-decoder）中的decoder中加入注意力机制，使得在解码时不再使用同一段中间向量，而是有针对地对译文中每一个词使用与原文相对的内容来生成的中间向量。

以下先解读论文内容（注重点为注意力机制），再从中抽象出注意力机制的中心思想，不再拘泥于机器翻译。

背景：神经机器翻译

从概率的角度看，翻译其实是基于条件x（原句子）找到最大概率的目标句子y。

$argmax_yp(y|x)$

后来，神经网络的兴起，编码器解码器模型的诞生，成为了一种新兴的方法，先通过将原句编码成一段定长的中间向量，再根据中间向量以及已有译文来进行进行译文生成。

RNN Encoder-Decoder

简单介绍一下传统模型，因为之后的注意力模型是基于这种模型进行改良的。

在Encoder-Decoder模型中，编码器把输入句子x(x1,x2,..,xTx),嵌入成c，最常见的方法就是使用RNN，例如：

$h_t=f(x_t,h_{t-1})$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。