【论文精读】Transformer

FFnone

已于 2024-02-10 16:56:22 修改

阅读量2.1k

点赞数 45

分类专栏： BackBones 文章标签： transformer 深度学习人工智能

于 2024-02-07 13:50:09 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_44934783/article/details/136068131

版权

摘要

以往的循环神经网络如LSTM和GRU，在序列建模和翻译问题中已经成为最先进的方法，但由于其循环结构，导致无法并行化计算，且难以对长序列的全局关系建模。故本文提出Transformer，一种非递归式的模型架构，完全依靠注意力机制来获取序列输入和输出之间的全局依赖关系，且Transformer允许并行化计算。具体为：

提出自注意力机制，是一种为了方便计算序列表示而关联单个序列的不同位置的注意力机制
基于循环注意力机制的端到端网络，已被证明在简单语言问答和语言建模任务上表现良好
第一个完全使用自注意力来计算序列输入输出的表示转换关系的模型

架构

Transformer采用编码器-解码器结构，编码器将输入序列 $(x_1,\dots,x_n)$ 映射为表示 $(z_1,\dots,z_n)$ ，解码器再将 $z$ 生成为输出序列 $(y_1, \dots, y_m)$ 。解码器生成下一个元素时，会将之前生成的元素作为额外的输入，且每次只生成一个元素，该过程称为自回归。编码器和解码器使用堆叠的自注意力和全连接层，如上图。

Encoder and Decoder Stacks

Encoder

编码器由 $N = 6$ 个相同结构层的堆栈组成，每一层都有两个子层，分别为多头自注意力机制（MSA）和全连接前馈神经网络（FFN）。其中，每个子层都采用残差连接进行层归一化，即，每个子层的输出为：

$L a yer N or m (x + S u b l a yer (x))$

其中 $S u b l a yer (x)$ 为子层自身实现的功能。为了促进这些残差连接，模型的所有子层及嵌入层输出维度都为 $d_{model} = 512$ 。

Decoder

解码器也由 $N = 6$ 个相同结构层的堆栈组成。每个解码器层除了有MSA、FFN两个子层外，还在中间插入第三个子层，该子层会对编码器的输出执行多头交叉注意力。与编码器类似，解码器层的每个子层也采用残差连接进行层归一化。其次，会对解码器中的所有自注意力子层添加掩码屏蔽，防止当前位置的自注意力关注后续位置的输入，确保对位置 $i$ 的预测只能依赖于位置小于 $i$ 的已知输出。