001-批次归一化Batch Normalization (BatchNorm)与层归一化Layer Normalization (LayerNorm)的介绍与对比

原创已于 2024-07-20 19:31:55 修改 · 1.6k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能 #笔记 #学习 #机器学习 #深度学习 #1024程序员节

于 2024-07-20 16:58:57 首次发布

机器学习&深度学习专栏收录该内容

4 篇文章

订阅专栏

批次归一化Batch Normalization (BatchNorm)与层归一化Layer Normalization (LayerNorm)的介绍与对比

一、Batch Normalization (BatchNorm)

1. 原理

Batch Normalization (BatchNorm) 通过在每个小批量数据（mini-batch）上进行归一化来改善神经网络的训练。BatchNorm 是对一个 mini-batch 内的每个特征进行归一化。它通常用于卷积神经网络（CNN）中。其具体步骤如下：

在这里插入图片描述

2.主要特点

归一化维度：对一个 mini-batch 内的每个特征进行归一化，即在 batch 维度上进行归一化。
应用场景：主要用于卷积神经网络（CNN），因为它能够减少内部协变量偏移，提高训练速度和收敛性

示例：

import torch
import torch.nn as nn

batchnorm = nn.BatchNorm2d(num_features=64)
input_tensor = torch.randn(32, 64, 128, 128)  # (batch_size, channels, height, width)
output_tensor = batchnorm(input_tensor)
print(output_tensor.shape)  # 输出形状为 (32, 64, 128, 128)

3. 优点

加速训练：通过减少内在协变量偏移（internal covariate shift），加速网络的收敛。
稳定性：使得网络训练更稳定，对学习率不太敏感。
正则化效果：一定程度上有正则化效果，减轻了对 Dropout 等正则化手段的依赖。

4. 局限性

依赖 mini-batch 大小：在小的 mini-batch 或单样本（例如在测试或在线学习环境中）上效果不好。
训练时间增加：计算均值和方差增加了额外的计算负担。
应用场景受限：对于某些任务（如 RNNs）效果不佳。

二、Layer Normalization (LayerNorm)

1. 原理

Layer Normalization (LayerNorm) 通过在每个单独样本的所有特征上进行归一化来改善神经网络的训练。LayerNorm 是对每个样本的所有特征进行归一化。它通常用于循环神经网络（RNN）和自然语言处理（NLP）任务中。其具体步骤如下：
在这里插入图片描述

2. 主要特点

归一化维度：对每个样本的所有特征进行归一化，即在特征维度上进行归一化
应用场景：主要用于循环神经网络（RNN）和自然语言处理（NLP）任务，因为它能够减少梯度消失问题，提高模型的鲁棒性

示例：

import torch
import torch.nn as nn

layernorm = nn.LayerNorm(normalized_shape=64)
input_tensor = torch.randn(32, 64)  # (batch_size, features)
output_tensor = layernorm(input_tensor)
print(output_tensor.shape)  # 输出形状为 (32, 64)

3. 优点

对 batch 大小不敏感：不依赖 mini-batch 大小，适用于小 batch 或单样本情况。
适用广泛：在 RNNs 等结构中效果更好，因为它对序列长度不敏感。
减少依赖：不依赖 mini-batch 的均值和方差，适合于各种输入分布。

4. 局限性

计算成本：每个样本都需要单独计算均值和方差，可能增加计算成本。
未必优于 BatchNorm：在大多数 CNN 中效果未必优于 BatchNorm。

三、对比

1. 归一化维度

BatchNorm：在 mini-batch 的每个特征维度上进行归一化。
LayerNorm：在每个样本的所有特征上进行归一化。

2. 对 batch 大小的依赖

BatchNorm：依赖 mini-batch 大小，在小 batch 或单样本情况下效果不好。
LayerNorm：对 batch 大小不敏感，适用于小 batch 或单样本情况。

3. 计算成本

BatchNorm：需计算 mini-batch 的均值和方差，计算成本中等。
LayerNorm：每个样本单独计算均值和方差，计算成本较高。

4. 应用场景

BatchNorm：常用于 CNNs、DNNs 等。
LayerNorm：常用于 RNNs、Transformer 等。

5. 对训练稳定性的影响

BatchNorm：通过减少内在协变量偏移，提高训练稳定性。
LayerNorm：通过标准化每个样本的特征，提高训练稳定性。

6. 正则化效果

BatchNorm：一定程度上具有正则化效果，减轻了对其他正则化手段的依赖。
LayerNorm：同样具有一定的正则化效果，但正则化效果依赖具体任务和网络结构。

四、总结

Batch Normalization 和 Layer Normalization 各有优劣，选择哪种方法取决于具体的应用场景和任务需求。BatchNorm 更适合在 CNNs 等对 mini-batch 大小有一定要求的网络中使用，而 LayerNorm 更适合在 RNNs、Transformer 等对序列处理友好的网络中使用。在实际应用中，可以根据具体情况选择适当的归一化方法，以优化神经网络的性能。