Transformer入门到精通：自注意力、前馈网络等核心模块详解

原创于 2025-09-18 16:15:10 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

Transformer是由注意力模块和全连接前馈模块构成的模块化网络结构。注意力模块包含自注意力层、残差连接和层归一化，通过query-key-value计算权重实现加权平均；全连接前馈层采用两层结构，负责模型记忆存储。层归一化加速训练并改善泛化，残差连接解决梯度消失问题。原始Transformer采用Encoder-Decoder架构，可单独使用构建Encoder-Only或Decoder-Only模型。Post-LN和Pre-LN是两种主要变体，各有优劣。

Transformer 是由两种模块组合构建的模块化网络结构。

两种模块分别为：注意力模块和全连接前馈模块

其中，自注意力模块由自注意力层（Self-Attention Layer）、残差连接（Residual Connections）和层归一化（Layer Normalization）组成。

全连接前馈模块由全连接前馈层，残差连接和层归一化组成。两个模块的结构如下图所示。

以下详细介绍每个层的原理及作用。

1、注意力模块

（Attention Layer)

注意力层采用加权平均的思想将前文信息叠加到当前状态上。Transformer 的注意力层将输入编码为 query，key，value 三部分，即将输入 {x1, x2, …, xt} 编码为{(q1, k1, v1),(q2, k2, v2), …,(qt, kt, vt)}。其中，query 和 key 用于计算自注意力的权重α, value 是对输入的编码。

其计算公式如下：

其中：

sim(q,k) 用于度量两个输入之间的相关程度，softmax 函数用于对此相关程度进行归一化。此外，

qi = Wqxi

ki = Wkxi

vi = Wvxi

Wq, Wk, Wv 分别为 query，key，value 编码器的参数。以序列输入 (x1,x2,x3)为例，最终计算出输出 O3。

Transformer 自注意力如下图所示

计算过程：

2、全连接前馈层

（Fully-connected Feedforwad Layer）

全连接前馈层占据了 Transformer 近三分之二的参数，掌管着 Transformer 模型的记忆。其可以看作是一种 Key-Value 模式的记忆存储管理模块。全连接前馈层包含两层，两层之间由 ReLU 作为激活函数。设全连接前馈层的输入为 v, 全连接前馈层可表示为：

其中，W1 和 W2 分别为第一层和第二层的权重参数，b1 和 b2 分别为第一层和第二层的偏置参数。其中第一层的可看作神经记忆中的 key，而第二层可看作 value。

3、层归一化

（Layer Normalization）

层归一化简单里说就是，把每一层的输入都会保持在均值 0、方差 1 的分布，有助于模型更快学习，避免极值的影响。

层归一化用以加速神经网络训练过程并取得更好的泛化性能。设输入到层正则化层的向量为 v = {vi}n ，i=1。层正则化层将在 v 的每一维度 vi 上都进行层正则化操作。具体地，层正则化操作可以表示为以下公式：

其中，α 和 β 为可学习参数。µ 和 δ 分别是隐藏状态的均值和方差，可由下列公式分别计算：

4、残差连接

（Residual Connections）

引入残差连接可以有效解决梯度消失问题，残差连接简单理解就是把上一层的计算结果带入下一层计算，使用两个矩阵相加就可以实现保留原始信息，例如：y=F(x)+x，x是上一层的计算结果。

在基本的 Transformer 编码模块中包含两个残差连接。

第一个残差连接是将自注意力层的输入由一条旁路叠加到自注意力层的输出上，然后输入给层正则化。

第二个残差连接是将全连接前馈层的输入由一条旁路引到全连接前馈层的输出上，然后输入给层正则化。

上述将层正则化置于残差连接之后的网络结构被称为 Post-LN Transformer。与之相对的，还有一种将层正则化置于残差连接之前的网络结构，称之为 Pre-LN，Transformers。对比两者，Post-LN Transformer 应对表征坍塌的能力更强，但处理梯度消失略弱。而 Pre-LN Transformers 可以更好的应对梯度消失，但处理表征坍塌的能力略弱。

5、Transformer架构

原始的Transformer 采用 Encoder-Decoder 架构。

其包含 Encoder 和 Decoder 两部分。这两部分都是由自注意力模块和全连接前馈模块重复连接构建而成。其整体结构如上图所示。

Encoder 部分由六个级联的 encoder layer 组成，每个encoder layer 包含一个注意力模块和一个全连接前馈模块。其中的注意力模块为自注意力模块（query，key，value 的输入是相同的）。

Decoder 部分由六个级联的decoder layer 组成，每个 decoder layer 包含两个注意力模块和一个全连接前馈模块。其中，第一个注意力模块为自注意力模块，第二个注意力模块为交叉注意力模块（query，key，value 的输入不同）。

Decoder 中第一个 decoder layer 的自注意力模块的输入为模型的输出。其后的 decoder layer 的自注意力模块的输入为上一个 decoderlayer 的输出。Decoder 交叉注意力模块的输入分别是自注意力模块的输出（query）和最后一个 encoder layer 的输出（key，value）。

Transformer 的 Encoder 部分和 Decoder 部分都可以单独用于构造语言模型，分别对应 Encoder-Only 模型和 Decoder-Only 模型。