Attention Is All You Need简析

文章介绍了Transformer模型,它使用注意力机制,资源要求低却能达先进水平。阐述了其整体框架,包括Encoder、Decoder等组件的结构与特点,如Encoder和Decoder各有6层,采用残差连接等;还介绍了Scaled Dot - Product Attention等方法,实验表明其资源利用高效。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Attention Is All You Need

介绍

文章提出的transformer,使用注意力机制,对于资源的要求更低,却同样能达到state-of-the-art的效果。

整体框架

在这里插入图片描述

Encoder

Encoder由6个相同的层组成,每层都有两个子层,一个是self-attetion机制,一个是全连接的前向网络。在子层之间也使用了残差连接与layer nomalization。

Decoder

Decoder同样由6个相同的层组成,同样有两个相同的子层,同样利用残差连接与layer nomalization,不同的是插入了第三个子层,将encoder的输出作为输入来进行自注意力机制。值得注意的是,decoder采用的是masked self-attention。举个例子:

在这里插入图片描述

对于第一个单词i来说,只能与自己作attention,因为它无法预测它之后的信息,相应的每个单词只能与他和他之前的单词作attention。

Scaled Dot-Product Attention

在这里插入图片描述

在这里插入图片描述

该方法只是将query与key作点击后除以dk\sqrt{d_k}dkdkd_kdk是key的维度),其余并无不同

Multi-Head Attention

在这里插入图片描述

用h(本文取8)个不同的线性变换分别将dmodeld_{model}dmodel维的key、value和query线性变换成dkd_kdk维、dkd_kdk维和dvd_vdv维,然后再代入注意力机制,产生总共h×dvd_vdv维输出,然后拼起来,再用一个线性变换得到最终的输出。

在这里插入图片描述

Positional Encoding

在这里插入图片描述

这里不同于facebook采用绝对位置信息,而是利用正弦、余弦函数的周期性变换来表示相对位置。

在这里插入图片描述

位置p+k的向量可以表示成位置p的向量的线性变换,这提供了表达相对位置信息的可能性。

Position-wise Feed-forward Networks

在进行了Attention操作之后,encoder和decoder中的每一层都包含了一个全连接前向网络,对每个position的向量分别进行相同的操作,包括两个线性变换和一个ReLU激活输出:

在这里插入图片描述

Experiment

在这里插入图片描述

可以看出,transformer 用了最少的资源得到了state-of-art的输出回报。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值