自然语言处理 - Self-attention 到 Transformer

最新推荐文章于 2025-03-16 17:15:00 发布

愉贵妃珂里叶特氏海兰

最新推荐文章于 2025-03-16 17:15:00 发布

阅读量732

点赞数

分类专栏：自然语言处理与深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_41332009/article/details/114441708

版权

先修知识：

在这里插入图片描述

1. 引言

读完“先修知识”一栏中的文章之后，你会发现：RNN由于其顺序结构训练速度常常受到限制，既然Attention模型本身可以看到全局的信息，那么一个自然的疑问是我们能不能去掉RNN结构，仅仅依赖于Attention模型呢，这样我们可以使训练并行化，同时拥有全局信息？
这一篇就主要根据谷歌的这篇 Attention is All you need 论文来回顾一下仅依赖于Attention机制的Transformer架构。

2. Transformer总体结构

Transformer的结构也采用了 Encoder-Decoder 架构。但其结构更加复杂，论文中Encoder层由6个Encoder堆叠在一起，Decoder层也一样。
在这里插入图片描述
每一个Encoder和Decoder的内部结构如下图：

Encoder包含两层，一个Self-attention层(Multi-Head Attention)和一个前馈神经网络层(feed forward)，Self-attention层能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。
Decoder也包含Encoder提到的两层网络，但是在这两层中间还有一层Attention层，帮助当前节点获取到当前需要关注的重点内容。

2.1 Encoder层详细说明

首先，模型需要对输入的数据进行一个embedding操作，并输入到Encoder层，Self-attention处理完数据后把数据送给前馈神经网络，前馈神经网络的计算可以并行，得到的输出会输入到下一个Encoder。大致结构如下：
在这里插入图片描述
$x_1, x_2$ 就是embedding， $z_1, z_2$ 是经过self-attention之后的输出，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。