nn.GroupNorm

最新推荐文章于 2025-04-10 02:40:00 发布

朋也透william

最新推荐文章于 2025-04-10 02:40:00 发布

阅读量969

点赞数 11

文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/weixin_44012667/article/details/144285683

版权

nn.GroupNorm 是 PyTorch 中的一个归一化层，用于对输入的张量进行归一化处理，主要用于深度学习模型中，以加速训练过程并提高模型的收敛性能。与常用的 Batch Normalization 和 Layer Normalization 不同，GroupNorm 引入了 分组归一化 的概念。

1. 什么是 Group Normalization?

Group Normalization 是一种归一化技术，它通过将通道分成若干组，在每组内进行归一化。
它的目标是减轻 Batch Normalization 在小批量（batch size 很小）场景下的性能下降问题，同时仍能有效地归一化特征。
公式定义：
给定输入特征 $x$ ，其形状为 $(N, C, H, W)$ ，即：
- $N$ : Batch size
- $C$ : 通道数
- $H, W$ : 空间维度
首先将 $C$ 通道分为 $G$ 个组，每组的大小为 $C / G$ 。对于第 $k$ 个组，归一化操作为：
$\hat{x}_{i} = \frac{x_{i} - \mu}{\sqrt{\sigma^2 + \epsilon}}$
其中：
- $\mu$ : 该组中所有元素的均值
- $\sigma^2$ : 该组中所有元素的方差
- $\epsilon$ : 一个小正值，防止分母为 0
最后，引入可学习的仿射变换参数 $\gamma$ 和 $\beta$ ：
$y_i = \gamma \hat{x}_i + \beta$

2. PyTorch 中的 `nn.GroupNorm`

定义

torch.nn.GroupNorm(num_groups, num_channels, eps=1e-05, affine=True)

参数

num_groups:
- 指定分组的数量 $G$ 。
- 每组的大小为 $C / G$ ，因此 $G$ 必须能被 $C$ 整除。
- 通常的设置：
  - $G = 1$ ：等价于 Layer Normalization。
  - $G = C$ ：等价于 Instance Normalization。
  - $1 < G < C$ ：分组归一化。
num_channels:
- 输入数据的通道数 $C$ ，即输入张量的第二维度大小。
- 必须指定为正确的值，以确保分组操作可以正确分配。
eps:
- 用于避免除以零，默认值为 $\times 10^{-5}$ 。
affine:
- 如果为 True，则会引入可学习的仿射变换参数 $\gamma$ 和 $\beta$ 。
- 默认值为 True。

3. 输入/输出格式

输入：
输入张量的形状为 $(N, C, H, W)$ ，其中：
- $N$ ：Batch size
- $C$ ：通道数
- $H, W$ ：空间维度（对于 2D 数据）。
输出：
输出的张量形状与输入相同。

4. 示例代码

简单示例

import torch
import torch.nn as nn

# 定义 GroupNorm 层
group_norm = nn.GroupNorm(num_groups=4, num_channels=8)

# 输入张量 (Batch size=2, Channels=8, Height=4, Width=4)
x = torch.randn(2, 8, 4, 4)

# 应用 GroupNorm
output = group_norm(x)
print(output.shape)  # 输出形状仍为 (2, 8, 4, 4)

与 BatchNorm 对比

batch_norm = nn.BatchNorm2d(8)
group_norm = nn.GroupNorm(num_groups=4, num_channels=8)

# 小批量输入 (Batch size=2)
x = torch.randn(2, 8, 4, 4)

# BatchNorm
y_batch = batch_norm(x)

# GroupNorm
y_group = group_norm(x)

print("BatchNorm Output Shape:", y_batch.shape)
print("GroupNorm Output Shape:", y_group.shape)

5. 优势

适用于小批量：
- GroupNorm 不依赖于 Batch size 的统计量，因此即使批量大小很小，性能也很稳定。
- 适用于小样本任务（如语义分割、目标检测等）。
统一化行为：
- LayerNorm、InstanceNorm 和 BatchNorm 都是 GroupNorm 的特例：
  - $G = 1$ ：LayerNorm。
  - $G = C$ ：InstanceNorm。
  - $G > 1$ ：GroupNorm。
灵活性：
- 可以通过调整 num_groups 实现不同的归一化粒度。

6. 注意事项

$G$ 的选择：
- $G$ 通常设置为 $\min(C, 32)$ 。
- 太小的 $G$ 会导致每组的统计量过于粗糙，而太大的 $G$ 会退化为 InstanceNorm。
性能：
- 在批量较大时，BatchNorm 的性能通常优于 GroupNorm。
- 在小批量或动态 Batch size 的任务中，GroupNorm 更稳定。