深度学习中的 Layer Normalization：轻松搞懂原理和实现

最新推荐文章于 2025-03-30 14:39:36 发布

lzt2323

最新推荐文章于 2025-03-30 14:39:36 发布

阅读量2k

点赞数 26

分类专栏： transforemer 文章标签：深度学习人工智能 transformer 神经网络 python

本文链接：https://blog.youkuaiyun.com/weixin_52582573/article/details/143578627

版权

transforemer 专栏收录该内容

15 篇文章

订阅专栏

6. Layer Normalization

深度学习中的 Layer Normalization：轻松搞懂原理和实现

在现代深度学习中，正则化方法能帮助模型更快地收敛，更稳定地训练。而 Layer Normalization（层归一化）作为其中的一种重要技术，特别适合处理序列数据，它可以有效防止梯度爆炸或梯度消失，从而提升模型的表达能力。今天，我们将通过通俗易懂的讲解和代码实例，带大家深入理解 Layer Normalization 的原理，并且自己动手实现它。

Layer Normalization 的作用和原理

什么是 Layer Normalization？

Layer Normalization 是一种正则化方法，它会对每一层的输出进行归一化，确保数据在均值为 0、方差为 1 的范围内。这种稳定的数据分布帮助模型层与层之间的信息流更加平滑，从而提升训练效率和稳定性。

为什么要用 Layer Normalization？

在深度神经网络中，如果每层输出的分布波动较大，容易导致梯度爆炸或梯度消失，影响模型的学习效率。而 Layer Normalization 可以在特征维度上对数据进行标准化，将均值调整为 0，方差调整为 1，让模型训练更稳定、更高效。

Layer Normalization 的计算步骤

假设输入向量为 $x$ ，我们来一步步拆解 Layer Normalization 的计算流程：

计算均值和方差：对每个样本的特征维度计算均值和方差。

$\mu = \frac{1}{D} \sum_{i=1}^{D} x_i, \quad \sigma^2 = \frac{1}{D} \sum_{i=1}^{D} (x_i - \mu)^2$

标准化：用均值和方差对输入进行归一化，确保每个样本的特征分布均值为 0，方差为 1。

$\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}$

缩放和平移：引入两个可学习参数 $\gamma$ 和 $\beta$ ，用于对归一化的结果进行缩放和平移，提升模型的表达能力。

$y_i = \gamma \hat{x}_i + \beta$

其中， $\epsilon$ 是一个小常数，用于防止分母为 0， $\gamma$ 和 $\beta$ 是可学习的参数。

自己实现 LayerNorm：手把手带你写代码

为了帮助大家更好地理解，我们用 Python 和 PyTorch 实现一个简单的 LayerNorm 类，不依赖现成的 nn.LayerNorm 模块。

import torch
import torch.nn as nn

class CustomLayerNorm(nn.Module):
    def __init__(self, embed_size, epsilon=1e-6):
        super(CustomLayerNorm, self).__init__()
        # 可学习的缩放参数 gamma 和偏移参数 beta
        self.gamma = nn.Parameter(torch.ones(embed_size))
        self.beta = nn.Parameter(torch.zeros(embed_size))
        self.epsilon = epsilon

    def forward(self, x):
        # 1. 计算均值和方差 (沿着特征维度 D 计算)
        mean = x.mean(dim=-1, keepdim=True)
        var = x.var(dim=-1, keepdim=True, unbiased=False)

        # 2. 标准化
        x_normalized = (x - mean) / torch.sqrt(var + self.epsilon)

        # 3. 缩放和平移
        out = self.gamma * x_normalized + self.beta
        return out

代码解读

初始化：我们定义 gamma 和 beta 作为可学习的参数，用于调整数据分布。
计算均值和方差：在前向传播中，我们计算输入向量的均值和方差。
标准化：将每个特征减去均值，除以标准差，使其分布均值为 0，方差为 1。
缩放和平移：通过 gamma 和 beta 对标准化结果进行调整，提供更多的灵活性。

为什么要有 `gamma` 和 `beta`？

标准化让数据的分布稳定，但有时模型需要在不同任务中输出不同的分布范围。通过 gamma 和 beta 的缩放和平移，模型可以适应更多的数据特性和分布需求。例如，在某些任务中，特征分布可能偏向某个均值或更宽的方差，这两个参数可以帮助模型学习到这些特性。

运行代码：验证 Layer Normalization 效果

我们可以通过测试代码验证我们的 CustomLayerNorm 是否正常工作。

# 假设输入张量 x
embed_size = 5
x = torch.rand(2, 3, embed_size)  # (batch_size=2, seq_len=3, embed_size=5)

# 实例化自定义 LayerNorm
layer_norm = CustomLayerNorm(embed_size)

# 前向传播
output = layer_norm(x)

print("输入 x：", x)
print("经过 LayerNorm 后的输出：", output)

# 验证均值和方差
print("输出的均值（接近 0）：", output.mean(dim=-1))
print("输出的方差（接近 1）：", output.var(dim=-1, unbiased=False))