Attention Is All You Need简析

最新推荐文章于 2025-05-29 10:30:02 发布

原创最新推荐文章于 2025-05-29 10:30:02 发布 · 470 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#attention #注意力机制 #论文呢

论文学习专栏收录该内容

41 篇文章

订阅专栏

文章介绍了Transformer模型，它使用注意力机制，资源要求低却能达先进水平。阐述了其整体框架，包括Encoder、Decoder等组件的结构与特点，如Encoder和Decoder各有6层，采用残差连接等；还介绍了Scaled Dot - Product Attention等方法，实验表明其资源利用高效。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Attention Is All You Need

介绍

文章提出的transformer，使用注意力机制，对于资源的要求更低，却同样能达到state-of-the-art的效果。

整体框架

在这里插入图片描述

Encoder

Encoder由6个相同的层组成，每层都有两个子层，一个是self-attetion机制，一个是全连接的前向网络。在子层之间也使用了残差连接与layer nomalization。

Decoder

Decoder同样由6个相同的层组成，同样有两个相同的子层，同样利用残差连接与layer nomalization，不同的是插入了第三个子层，将encoder的输出作为输入来进行自注意力机制。值得注意的是，decoder采用的是masked self-attention。举个例子：

在这里插入图片描述

对于第一个单词i来说，只能与自己作attention，因为它无法预测它之后的信息，相应的每个单词只能与他和他之前的单词作attention。

Scaled Dot-Product Attention

在这里插入图片描述

在这里插入图片描述

该方法只是将query与key作点击后除以 $dk\sqrt{d_k}$ （ $d_k$ 是key的维度），其余并无不同

Multi-Head Attention

在这里插入图片描述

用h(本文取8)个不同的线性变换分别将 $d_{model}$ 维的key、value和query线性变换成 $d_k$ 维、 $d_k$ 维和 $d_v$ 维，然后再代入注意力机制，产生总共h× $d_v$ 维输出，然后拼起来，再用一个线性变换得到最终的输出。

在这里插入图片描述

Positional Encoding

在这里插入图片描述

这里不同于facebook采用绝对位置信息，而是利用正弦、余弦函数的周期性变换来表示相对位置。

在这里插入图片描述

位置p+k的向量可以表示成位置p的向量的线性变换，这提供了表达相对位置信息的可能性。

Position-wise Feed-forward Networks

在进行了Attention操作之后，encoder和decoder中的每一层都包含了一个全连接前向网络，对每个position的向量分别进行相同的操作，包括两个线性变换和一个ReLU激活输出：

在这里插入图片描述

Experiment

在这里插入图片描述

可以看出，transformer 用了最少的资源得到了state-of-art的输出回报。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。