transformer（4）图解layernorm是怎么完成的

最新推荐文章于 2025-12-22 18:37:45 发布

原创最新推荐文章于 2025-12-22 18:37:45 发布 · 970 阅读

CC 4.0 BY-SA版权

文章标签：

8 篇文章

订阅专栏

1. 为什么需要归一化

为了保持模型的训练稳定性，常常要对特征进行归一化，深层网络当层数叠加过多时，中间层的数据分布如果不稳定，会导致整个模型训练过程中梯度消失或爆炸的问题。
可以说是只要是训练深层网络，不可能不考虑归一化这一步。

在这里插入图片描述

为了归一化数据，我们常常的做法是Batch Normalization（BN），它的做法是对每个样本的特征进行归一化，即对每个特征维度上的所有样本值进行归一化。

在这里插入图片描述

在计算机视觉任务里面常常使用Batch Normalization（BN），但是在文本领域其实是不能使用的
因为在文本领域，每个样本的长度是不固定的，里面可能有很多padding的token，这些token是没有实际意义的，但是如果对它们进行归一化，会影响到模型的性能。

具体参考我的往期内容：《为什么Transformer使用LayerNorm而不是BatchNorm？》

所以文本领域的做法是Layer Normalization（LN），它的做法是对每个样本的所有特征进行归一化，即对每个样本的所有特征维度上的所有样本值进行归一化。

在这里插入图片描述

对一个单独的样本 $x$ ，其中 $x_i$ 表示第 $i$ 个位置上的特征向量

$\mu = \frac{1}{d} \sum_{i=1}^d x_i$

$\sigma^2 = \frac{1}{d} \sum_{i=1}^d (x_i - \mu)^2$

$x^i=xi−μσ2+ϵ⋅γ+β \hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}} \cdot \gamma + \beta$

$x^i=xi1d∑i=1dxi2+ϵ⋅γ \hat{x}_i = \frac{x_i}{\sqrt{\frac{1}{d} \sum_{i=1}^d x_i^2 + \epsilon}} \cdot \gamma$

DeepNorm 理论推导相对复杂，简单讲讲，为了设计超大层网络，微软研究人员严格研究了超多层网络之间的数据分布问题，它考虑到了每层应该如何初始化，残差连接对数据的分布影响等，避免梯度消失或爆炸的问题。
其论文为《DeepNet: Scaling Transformers to 1,000 Layers》。看论文名字就知道，它希望将Transformer模型扩展到1000层。
这里给出一个简单的公式说明，参考《大语言模型》

$LayerNorm(\alpha \cdot x + SubLayer(x))$

归一化模块的位置设计我这里只谈两种基本形式
- 层前归一化（Pre-Normalization）：先进行归一化，再进行子层计算。
- 层后归一化（Post-Normalization）：先进行子层计算，再进行归一化。
示例图说明

在这里插入图片描述

简单说下两种方式的区别吧
- 如果你的语言模型较为简单，相对而言不是那么大，那么优先选择层前归一化（Pre-Normalization）。它更好训练。
- 从图中可以看到，即使是数据从输入到输出，始终保持一份原始数据流对模型的影响，不会被归一化模块所改变。使得模型的训练更加稳定。
- 层后归一化（Post-Normalization）的归一化不在残差模块中，而是在子层计算之后。这使得模型的训练可以更加复杂，学习到更多的特征表示，但是训练难度也会增加。一般用于更大的语言模型中。
- 所以层后归一化一般是比层前归一化能力要强的

在这里插入图片描述