layer & batch normalization的区别及应用场景

坏脾气的小十七

已于 2025-04-09 16:06:43 修改

阅读量947

点赞数 13

分类专栏：计算机视觉文章标签：人工智能计算机视觉算法语言模型

于 2025-04-09 16:05:33 首次发布

本文链接：https://blog.youkuaiyun.com/qq_45639509/article/details/147095839

版权

计算机视觉专栏收录该内容

4 篇文章

订阅专栏

在深度学习中，归一化技术是提升模型训练稳定性和收敛速度的关键方法,Layer Normalization（LN） 和 Batch Normalization（BN） 是两种最常用的归一化方法，它们的核心区别在于归一化的维度以及适用场景。

1. 核心区别

维度	Batch Normalization (BN)	Layer Normalization (LN)
归一化维度	沿 Batch 维度（对同一特征的所有样本归一化）	沿特征维度（对同一样本的所有特征归一化）
统计量来源	依赖当前 Batch 的均值和方差	仅依赖当前样本的均值和方差
输入数据形状	适合固定结构的输入（如 CNN 中的图像数据）	适合动态或变长输入（如 RNN、Transformer 中的序列数据）

直观理解

BN：假设输入数据形状为 [B, H, W, C]（B: Batch size，H: 高度，W: 宽度，C: 通道数），BN 会对每个通道 C 的所有 Batch 样本和空间位置（H, W）计算均值和方差。
LN：对每个样本的 [H, W, C] 的所有特征（即通道和空间位置）计算均值和方差。

2. 公式对比

Batch Normalization

对每个特征通道 C，计算 Batch 内所有样本的均值和方差：
$\ \mu_C = \frac{1}{B \cdot H \cdot W} \sum_{b=1}^B \sum_{h=1}^H \sum_{w=1}^W x_{b,h,w,C} \ \ \sigma_C^2 = \frac{1}{B \cdot H \cdot W} \sum_{b=1}^B \sum_{h=1}^H \sum_{w=1}^W (x_{b,h,w,C} - \mu_C)^2 \$
归一化后：
$\ \hat{x}_{b,h,w,C} = \frac{x_{b,h,w,C} - \mu_C}{\sqrt{\sigma_C^2 + \epsilon}} \$

Layer Normalization

对每个样本 B，计算该样本所有特征的均值和方差：
$\ \mu_B = \frac{1}{H \cdot W \cdot C} \sum_{h=1}^H \sum_{w=1}^W \sum_{c=1}^C x_{B,h,w,c} \ \ \sigma_B^2 = \frac{1}{H \cdot W \cdot C} \sum_{h=1}^H \sum_{w=1}^W \sum_{c=1}^C (x_{B,h,w,c} - \mu_B)^2 \ 归一化后： \ \hat{x}_{B,h,w,c} = \frac{x_{B,h,w,c} - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}} \$

3. 应用场景

Batch Normalization 的优势

适合 CNN：在图像任务（如 ResNet）中，BN 能显著加速训练并提升模型性能。
依赖 Batch 统计量：需要较大的 Batch Size（如 32 以上）以稳定估计均值和方差。
正则化效果：通过 Batch 内样本的随机性，隐式引入噪声，起到轻微正则化作用。

Layer Normalization 的优势

适合 RNN/Transformer：在序列模型（如 LSTM、Transformer）中，序列长度可变，BN 无法对齐不同长度的样本，而 LN 对每个样本独立处理。
不依赖 Batch Size：在 Batch Size 较小（甚至为 1）时仍有效，适合动态网络结构。
训练与推理一致：LN 的统计量仅依赖当前样本，无需维护全局均值和方差（BN 在推理时需使用训练集的移动平均统计量）。

4. 典型应用案例

方法	典型模型	场景
BN	ResNet、VGG、MobileNet	图像分类、目标检测等 CNN 任务
LN	Transformer、BERT、GPT	NLP、序列生成、自回归模型
混合使用	部分 GAN 或多模态模型	同时需要稳定特征和动态适应能力

5. 关键对比总结

特性	BN	LN
归一化维度	Batch + 空间维度（如 H, W）	特征维度（如 C）
对 Batch 依赖	强依赖（需较大 Batch Size）	无依赖（适合小 Batch 或单样本）
适用范围	CNN、固定结构数据	RNN、Transformer、变长序列数据
训练/推理差异	推理时使用移动平均统计量	训练与推理行为一致
正则化效果	有（通过 Batch 内样本噪声）	无