pytorch基础-layernormal 与 batchnormal

最新推荐文章于 2025-03-25 18:06:52 发布

yuweififi

最新推荐文章于 2025-03-25 18:06:52 发布

阅读量466

点赞数 3

文章标签： pytorch 人工智能 python

本文链接：https://blog.youkuaiyun.com/yuweififi/article/details/145880417

版权

nn.LayerNorm（层归一化）和 nn.BatchNorm（批量归一化）是深度学习中常用的两种归一化方法，都有助于提高模型的训练效率和稳定性，但它们在归一化维度、应用场景、计算方式等方面存在明显区别，以下为你详细介绍：

1、归一化维度

nn.LayerNorm：对单个样本的特征维度进行归一化。无论输入数据的形状如何，它会计算每个样本在特征维度上的均值和方差，然后进行归一化。例如，对于一个形状为 (batch_size, sequence_length, hidden_size) 的输入，nn.LayerNorm 会沿着 hidden_size 维度计算均值和方差。
nn.BatchNorm：对一个批次内所有样本的同一特征进行归一化。它会在批次维度上计算均值和方差，使得每个特征在整个批次内具有相同的分布。对于上述形状的输入，nn.BatchNorm 会在 batch_size 维度上计算均值和方差。

2、计算方式

nn.LayerNorm：
- 计算单个样本的特征维度上的均值和方差。
- 使用公式进行归一化，其中是输入，是一个小的常数，用于避免除零错误，和是可学习的参数。
nn.BatchNorm：
- 计算一个批次内所有样本的同一特征维度上的均值和方差。
- 同样使用上述公式进行归一化，其中和也是可学习的参数。

3、应用场景

nn.LayerNorm：
- 适用于处理变长序列的任务，如自然语言处理中的循环神经网络（RNN）、长短时记忆网络（LSTM）、门控循环单元（GRU）以及 Transformer 模型。因为在处理序列数据时，批次内的样本长度可能不同，批量归一化在这种情况下不太适用，而层归一化可以对每个样本独立进行归一化。
- 当模型的输入批次大小较小时，层归一化的效果通常比批量归一化更好，因为批量归一化在小批次下计算的均值和方差可能不稳定。
nn.BatchNorm：
- 广泛应用于卷积神经网络（CNN）中，在图像分类、目标检测等任务中取得了很好的效果。在 CNN 中，每个卷积层的输出通常具有较大的批次大小，适合使用批量归一化。
- 当训练数据的分布比较稳定，且批次大小足够大时，批量归一化可以加速模型的收敛速度，提高模型的泛化能力。

代码示例对比

import torch
import torch.nn as nn

# 定义输入数据
batch_size = 4
sequence_length = 5
hidden_size = 6
input_tensor = torch.randn(batch_size, sequence_length, hidden_size)

# 使用 nn.LayerNorm
layer_norm = nn.LayerNorm(hidden_size)
layer_norm_output = layer_norm(input_tensor)

# 使用 nn.BatchNorm
# 对于 3D 输入，需要使用 nn.BatchNorm1d
batch_norm = nn.BatchNorm1d(hidden_size)
# 调整输入形状以适应 nn.BatchNorm1d 的输入要求
input_tensor_reshaped = input_tensor.permute(0, 2, 1)
batch_norm_output = batch_norm(input_tensor_reshaped)
# 恢复输出形状
batch_norm_output = batch_norm_output.permute(0, 2, 1)

print("LayerNorm output shape:", layer_norm_output.shape)
print("BatchNorm output shape:", batch_norm_output.shape)

在上述代码中，分别展示了 nn.LayerNorm 和 nn.BatchNorm 的使用方法，注意 nn.BatchNorm1d 对输入形状有特定要求，需要进行形状调整。