Group Normalization详解

最新推荐文章于 2025-05-30 15:33:40 发布

太阳花的小绿豆

最新推荐文章于 2025-05-30 15:33:40 发布

阅读量1.3w

点赞数 84

CC 4.0 BY-SA版权

分类专栏：深度学习 pytorch 算法文章标签： Group Norm GN 深度学习图像处理

本文链接：https://blog.youkuaiyun.com/qq_37541097/article/details/118016048

深度学习同时被 3 个专栏收录

53 篇文章

订阅专栏

pytorch

25 篇文章

订阅专栏

算法

3 篇文章

订阅专栏

本文介绍了Group Normalization（GN）的概念及其在深度学习中的应用。对比了BN、LN和GN的区别，并详细解释了GN如何在通道维度上进行操作。通过PyTorch实验验证了GN的实现方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文名称：Group Normalization
论文地址：https://arxiv.org/abs/1803.08494

在之前的文章中有介绍过BN(Batch Normalization)，链接，以及LN(Layer Normalization)，链接。今天来简单聊聊GN(Group Normalization)。在视觉领域，其实最常用的还是BN，但BN也有缺点，通常需要比较大的Batch Size。如下图所示，蓝色的线代表BN，当batch size小于16后error明显升高（但大于16后的效果确实要更好）。对于比较大型的网络或者GPU显存不够的情况下，通常无法设置较大的batch size，此时可以使用GN。如下图所示，batch size的大小对GN并没有影响，所以当batch size设置较小时，可以采用GN。

group Norm
无论是BN、LN还是GN，公式都是一样的，都是减均值 $E (x)$ ，除以标准差 $\sqrt{Var(x) + \epsilon }$ 其中 $\epsilon$ 是一个非常小的量（默认 $10^{-5}$ ），是为了防止分母为零。以及两个可训练的参数 $\beta, \gamma$ 。不同在于是在哪个/哪些维度上进行操作：
$\frac{x - E(x)}{\sqrt{Var(x) + \epsilon }} \ast \gamma + \beta$

对于GN(Group Normalization)的操作如下图所示，假设 $num\_groups=2$ 原论文中默认为32，由于和batch_size无关，我们直接看对于一个样本的情况。假设某层输出得到 $x$ ，根据 $num\_groups$ 沿 $c h a n n e l$ 方向均分成 $num\_groups$ 份，然后对每一份求均值和方差，接着按照上面的公式进行计算即可，非常简单。

为了验证自己理解的是否正确，下面使用Pytorch做个简单的实验，创建一个随机变量，分别使用官方的GN方法和自己实现的GN方法做对比，看结果是否一样。

import torch
import torch.nn as nn


def group_norm(x: torch.Tensor,
               num_groups: int,
               num_channels: int,
               eps: float = 1e-5,
               gamma: float = 1.0,
               beta: float = 0.):
    assert divmod(num_channels, num_groups)[1] == 0
    channels_per_group = num_channels // num_groups

    new_tensor = []
    for t in x.split(channels_per_group, dim=1):
        var_mean = torch.var_mean(t, dim=[1, 2, 3], unbiased=False)
        var = var_mean[0]
        mean = var_mean[1]
        t = (t - mean[:, None, None, None]) / torch.sqrt(var[:, None, None, None] + eps)
        t = t * gamma + beta
        new_tensor.append(t)

    new_tensor = torch.cat(new_tensor, dim=1)
    return new_tensor


def main():
    num_groups = 2
    num_channels = 4
    eps = 1e-5

    img = torch.rand(2, num_channels, 2, 2)
    print(img)

    gn = nn.GroupNorm(num_groups=num_groups, num_channels=num_channels, eps=eps)
    r1 = gn(img)
    print(r1)

    r2 = group_norm(img, num_groups, num_channels, eps)
    print(r2)


if __name__ == '__main__':
    main()