深度学习特征归一化方法——BN、LN、IN、GN

最新推荐文章于 2025-04-22 18:13:09 发布

风翼冰舟

最新推荐文章于 2025-04-22 18:13:09 发布

阅读量3.5k

点赞数

分类专栏：神经网络 tensorflow

本文链接：https://blog.youkuaiyun.com/zb1165048017/article/details/99864884

版权

tensorflow 同时被 2 个专栏收录

27 篇文章

订阅专栏

神经网络

25 篇文章

订阅专栏

前言

最近看到Group Normalization的论文，主要提到了四个特征归一化方法：Batch Norm、Layer Norm、Instance Norm、Group Norm。此外，论文还提到了Local Response Normalization(LRN)、Weight Normalization(WN)、Batch Renormalization(BR)。

国际惯例，参考博客：

Group Normalization论文

Group_Normalization-Tensorflow

GN的tensorflow官方实现

动机

BN是在小批数据中用均值和方差归一化，能够保证很深的网络能够收敛，但是BN需要足够大的batch size，比较小的batch对批量数据的统计特征估算不准确，降低BN的batch size 就会提升模型误差。

Group的思想有很多：AlexNet将模型部署到两块GPU；ResNeXt测试了depth、width、groups对网络的效果，建议在相似计算消耗的前提下，较大的group能提升准确率；MobileNet和Xception测试了depth-wise卷积的效果，也就是group数与channel数相同；ShuffleNet尝试了交换group特征，即channel随机交换。这些方法都包括将channel划分为不同的group，所以作者就想到了group做Normalization。

作者认为，DNN的channels特征并非是非结构化的，比如第一层卷积，其中一个滤波器与他的水平翻转滤波器，对同一张图片的响应，可能得到相似的分布。如果第一层卷积近似学习到了这对滤波器，那么这些滤波器对应的channel就可以被一起归一化了。文章还说明了，除了类似这样的卷积核可以导致group，其它的比如频率、形状、亮度、纹理等，都可能具有联系，都可以被group。

理论

通常归一化的标准公式就是：
$\hat{x}=\frac{x-\mu_i}{\sigma_i}$
其中 $\mu$ 是均值， $\sigma$ 是方差，假设均值和方差都是从集合 $S_i$ 中计算得到的，那么
$\begin{aligned} \mu_i &= \frac{1}{m}\sum_{k\in S_i} x_k \\ \sigma_i &=\sqrt{\frac{1}{m}\sum_{k \in S_i}(x_k-\mu_i)^2 + \epsilon} \end{aligned}$
假设其中某个卷积层的特征图树木为 $(N, C, H, W)$ ，分别代表批中样本索引、特征图通道索引、特征图高、宽，设它们的索引是 $N_i,C_j,H,W)$ 代表第 $i$ 个样本的第 $j$ 个特征图。

那么

Batch Norm对应的计算均值和方差的数据集合为： $S_i= \{k|k_C=C_i\}$ ；意思是将当前批所有数据的具有相同通道索引的特征图划分为一组，每组单独归一化，这样组集合就是：
$(N,C_1,H,W),(N,C_2,H,W),\cdots,(N,C_j,H,W),\cdots$
Layer Norm对应的计算均值和方差的数据集合为： $S_i= \{k|k_N = N_i \}$ ；意思是将当前批每个数据的所有通道划分为一组，每组单独归一化，这样组集合就是：
$(N_1,C,H,W),(N_2,C,H,W),\cdots,(N_i,C,H,W),\cdots$
Instance Norm对应的计算均值和方差的数据集合为： $S=\{k|k_n=N_i,k_C=C_j\}$ ；意思是将当前批每个数据的每个通道单独划分一组，也就是每个特征图自己归一化，这样组集合就是：
$(N_1,C_1,H,W),(N_2,C_1,H,W),\cdots,(N_i,C_j,H,W),\cdots$
Group Norm对应的计算均值和方差的数据集合为： $S=\{k| k_N=N_i, \lfloor \frac{k_C}{C/G} \rfloor = \lfloor \frac{C_i}{C/G} \rfloor \}$ ；意思是将每个样本对应的所有通道划分为 $G$ 组，每组单独归一化，假设每组被划分后有两个通道，组集合就是：
第一组： $N_1,C_1,H,W),(N_1,C_2,H,W)$
$\vdots$
第p组： $N_i,C_j,H,W),(N_i,C_{j+1},H,W)$
$\vdots$

当然，为了弥补损失掉的表达能力，上述所有的Normalization方法都必须学习一个线性变换：
$y_i=\gamma \hat{x_i}+\beta$

其中 $\gamma$ 和 $\beta$ 是可训练的缩放与偏移值，是针对每个通道的。

代码

第三方实现

github上有人在tensorflow中实现过，戳这里

def group_norm(x, G=32, eps=1e-5, scope='group_norm') :
    with tf.variable_scope(scope) :
        N, H, W, C = x.get_shape().as_list()
        G = min(G, C)

        x = tf.reshape(x, [N, H, W, G, C // G])
        mean, var = tf.nn.moments(x, [1, 2, 4], keep_dims=True)
        x = (x - mean) / tf.sqrt(var + eps)

        gamma = tf.get_variable('gamma', [1, 1, 1, C], initializer=tf.constant_initializer(1.0))
        beta = tf.get_variable('beta', [1, 1, 1, C], initializer=tf.constant_initializer(0.0))


        x = tf.reshape(x, [N, H, W, C]) * gamma + beta

    return x

调用方法也很简单：

from ops import *
  x = conv(x)
  x = group_norm(x)

tensorflow官方实现

官方实现戳这里

定义的函数：

def group_norm(inputs,
               groups=32,
               channels_axis=-1,
               reduction_axes=(-3, -2),
               center=True,
               scale=True,
               epsilon=1e-6,
               activation_fn=None,
               param_initializers=None,
               reuse=None,
               variables_collections=None,
               outputs_collections=None,
               trainable=True,
               scope=None,
               mean_close_to_zero=False):

分组的核心代码：

# Manually broadcast the parameters to conform to the number of groups.
  params_shape_broadcast = ([1] * len(axes_before_channels) +
                            [groups, channels // groups] +
                            [1] * len(axes_after_channels))

  # Reshape the input by the group within the channel dimension.
  inputs_shape = (axes_before_channels + [groups, channels // groups] +
                  axes_after_channels)
  inputs = array_ops.reshape(inputs, inputs_shape)