深度学习归一化 (normalization) 方法总结: BN, LN, WN, IN, GN, SN

最新推荐文章于 2025-03-02 19:35:32 发布

置顶 BGoodHabit

最新推荐文章于 2025-03-02 19:35:32 发布

阅读量2.2k

点赞数 1

分类专栏： NLP 文章标签：深度学习概率论机器学习

本文链接：https://blog.youkuaiyun.com/BGoodHabit/article/details/115454325

版权

NLP 专栏收录该内容

29 篇文章

订阅专栏

1 均值

样本均值是由一个或多个随机变量中得到的统计量，样本均值是一个向量，其中的每个元素是在所有样本中对应的元素求的算术平均数，若只考虑一个随机变量，则样本均值为一个标量，假如有 $n$ 个样本，每个样本 $X_i \in R^d$ ，则样本的均值计算如下：
$\frac{\sum_{i=1}^nX_i}{n}$
其中 $\in R^d$ ，其中每个元素代表的是每个维度的特征在所有样本中的算术平均数。
样本均值反映的是样本集合的中心点，所表达的信息量有限，所以我们需要其它的计算指标去衡量样本的特性。

2 方差

在概率论和统计学中，一个随机变量的方差描述的是它的离散程度，也就是该变量离其期望值 (即均值) 的距离。每个样本与样本平均值之差的平方的平均数得到的就是样本的方差，通常用 $s^2, Var(X)$ 表示，计算公式如下：
$E[(X-\sigma)^2]$
其中 $\sigma=E(X)$ ，对于 $n$ 个样本，其中均值为 $\sigma$ ，则方差具体计算公式如下：
$s^2 = \frac{\sum_{i=1}^n(X_i -\sigma)^2}{n}$

3 标准差

标准差是方差的算术平方根，方差和我们的原始数据衡量的单位不一致的，方差对差值做了一个平方，不好衡量与真实数据的客观差距，而标准差在方差上做了算术平方根，和原始数据保持了单位一致，更好的放映了数据与均值的偏离程度。一般用符号 $\sigma$ , $s$ 表示，计算公式如下：
$\sqrt{\frac{\sum_{i=1}^n(X_i -\sigma)^2}{n}}$

4 协方差

协方差用于衡量两个随机变量的联合变化程度，若一个变量变大，另外一个变量也变大，说明两个变量是同方向变化的，这时协方差就是正，相反，若一个变量变大，另外一个变量变小，两个变量是反向变化的，则协方差就是负的。而协方差的数值大小表示的两个变量同向或者反向的程度。协方差计算公式如下：
$C o v (X, Y) = E [(X - E (X)) (Y - E (Y))]$
上述公式直观解释就是，每个时刻，X值与其均值之差乘以Y值与其均值之差得到一个乘积，然后对这些所有新的乘积值求均值，也就是期望，得到的就是协方差。若X=Y，则就是所谓的方差了，方差是自己和自己的一个协方差。

5 协方差矩阵

假设 $X$ 是一个 $n$ 个随机变量组成的列向量，如下：
$X=\begin{bmatrix} X_1 \\ X_2 \\. \\. \\.\\ X_n \end{bmatrix}$
并且 $\sigma_i$ 是 $X_i$ 的期望值，即 $\sigma_i=E(X_i)$ ，协方差矩阵中的第 $(i, j)$ 元素是由 $X$ 中第 $i$ 个元素 $X_i$ 与第 $j$ 个元素 $X_j$ 两个变量之间的协方差计算得来的，每两个变量之间计算得到的协方差构成了协方差矩阵，定义形式如下：
$\sum{ij} = cov(X_i, X_j) = E[(X_i - \sigma_i)(X_j - \sigma_j)]$
协方差矩阵整体计算如下：
$\sum = E[(X-E(X)(X-E(X))^T]=$
$\begin{bmatrix} E[(X_1 - \sigma_1)(X_1 - \sigma_1)] & E[(X_1 - \sigma_1)(X_2 - \sigma_2)] & ... & E[(X_1 - \sigma_1)(X_n - \sigma_n)] \\ E[(X_2 - \sigma_2)(X_1 - \sigma_1)] & E[(X_2 - \sigma_2)(X_2 - \sigma_2)] & ... & E[(X_2 - \sigma_2)(X_n - \sigma_n)] \\. & . &. &.\\. & . & . & . \\. &. &.&.\\ E[(X_n - \sigma_n)(X_1 - \sigma_1)] & E[(X_n - \sigma_n)(X_2 - \sigma_2)]] & ... & E[(X_n - \sigma_n)(X_n - \sigma_n)] \end{bmatrix}$

矩阵中的第 $(i, j)$ 个元素是 $X_i$ 与 $X_j$ 的协方差。

6 PCA （Principal Component Analysis）

主成分分析是一种统计分析，简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列不相关变量的值，这些不相关变量称为主成分，是一种使用广泛的数据降维算法。

6.1 特征向量 & 特征值定义

一个矩阵与向量的乘法 $A x$ 从几何意义来讲就是通过矩阵 $A$ 对向量 $x$ 做一个变换，包括旋转和伸缩的变换，得到一个在方向或者长度大多不同的新的向量。若对这个向量不产生方向的变换，只做伸缩的变换，则这个向量就称为这个矩阵的特征向量，伸缩的比例就是特征值，数学公式表达如下：
$\lambda x$
其中 $x$ 称为矩阵 $A$ 对应的特征值 $\lambda$ 的特征向量。

6.2 特征向量 & 特征值求解

接下来我们来看下怎么求解一个矩阵的特征值和特征向量。
$\lambda x \to Ax = \lambda Ex \to (\lambda E - A)x = 0$

$\begin{vmatrix} \lambda E - A \end{vmatrix} = \begin{vmatrix} \lambda - a_{11} & -a_{12} & ... & -a_{1n} \\ -a_{21} & \lambda -a_{22} & ... & -a_{2n} \\ ... & ...& ... & ... \\ -a_{n1} & -a_{n2} & ... & \lambda - a_{nn} \end{vmatrix}=0$
假设：
$\begin{bmatrix} 4 & 2 & -5 \\ 6 & 4 & -9 \\ 5 & 3 & -7 \end{bmatrix}$
则：
$\begin{vmatrix} \lambda E - A \end{vmatrix} = \begin{vmatrix} \lambda-4 & -2 & 5 \\ -6 & \lambda -4 & 9 \\ -5 & -3 & \lambda+7 \end{vmatrix} = 0$
根据行列式，求解化简得到：
$\lambda^2*(\lambda-1)=0$
计算得到特征值为：
$\lambda_1 = 1, \lambda_2=\lambda_3=0$
当 $\lambda_1=1$ 代入到方程中：
$\lambda E - A )x = (E - A)x=0$
其中 $E=\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0& 1 \end{bmatrix}$
$\begin{bmatrix} -3 & -2 & 5 \\ -6 & -3 & 9 \\ -5 & -3& 8 \end{bmatrix} =\begin{bmatrix} 1 & 0 & -1 \\ 0 & 1 & -1 \\ 0 & 0& 0 \end{bmatrix}$
则：
$\begin{bmatrix} 1 & 0 & -1 \\ 0 & 1 & -1 \\ 0 & 0& 0 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix}=0$
$\to \begin{cases} x_1-x_3=0\\\\ x_2-x_3= 0 \end{cases}$
令 $x_1=1$ 则， $x_2=x_3=1$ ，则特征值 $\lambda_1=1$ 对应的特征向量为：
$\varepsilon_1 = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}$
同理，当 $\lambda_2=\lambda_3=0$ ，得到对应的特征向量如下：
$\varepsilon_2=\varepsilon_3 = \begin{bmatrix} 1 \\ 3 \\ 2 \end{bmatrix}$

6.3 PCA原理和求解过程

主成分分析（PCA)是重要的降维方法之一，核心思想是找出数据最主要的方面来代替原始数据，假如数据有 $n$ 维，共有 $m$ 个数据 $x^1, x^2, ..., x^m)$ ，我们希望将这m个数据的维度从 $n$ 维降到 $k$ 维（ $n > k$ ），尽可能保持原有数据的信息，减少损失。如下图所示：

在这里插入图片描述
有5个数据点（已经做过预处理，均值为0），假如我们将数据投影到某一维上，用一条原点的直线表示：

假设选择两条不同的直线做投影，如上所示，从直观来看，左边的投影会更好。理由主要有两点，第一点：样本点到这个直线的距离足够近（最小平方误差），第二点：投影后的样本点之间的方差最大（最大方差理论）。
让我们用最大方差理论来进行求解PCA。假设 $u$ 是投影向量，则 $x^i$ 点投影后的值为： $x^{(i)^T}u$ ，这里由于样本点的每一维特征均值都为0，因此投影到 $u$ 上后的样本点均值也为0，则 $m$ 个样本的投影后的方差为: $\frac{1}{m}\sum_{i=1}^m(x^{(i)^T}u)^2$ ，公式转换如下：
$\frac{1}{m}\sum_{i=1}^m(x^{(i)^T}u)^2 = \frac{1}{m}\sum_{i=1}^mu^Tx^{(i)}x^{(i)^T}u$
$\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }=u^T(\frac{1}{m}\sum_{i=1}^mx^{(i)}x^{(i)^T})u$
可以看出 $\frac{1}{m}\sum_{i=1}^mx^{(i)}x^{(i)^T}$ 就是样本特征的协方差矩阵（这里 $x^{(i)}$ 已经均值为0了），我们用 $\lambda$ 表示 $\frac{1}{m}\sum_{i=1}^m(x^{(i)^T}u)^2$ , $\sum$ 表示 $\frac{1}{m}\sum_{i=1}^mx^{(i)}x^{(i)^T}$ ，则上面的公式重新表达为 (因为 $u$ 为单位向量，则 $u^Tu=1$ )：
$\lambda = u^T\sum u \to u\lambda = \lambda u = uu^T\sum u = \sum u$
即：
$\sum u = \lambda u$
回到矩阵的特征值和特征向量定义中，我们可以知道 $u$ 是矩阵 $\sum$ 的特征向量，而 $\lambda$ 是特征向量对应的特征值。所以，如果我们希望 $\lambda$ 尽可能的最大，则需要求出原始协方差矩阵 $\sum$ 的特征值，最佳的投影直线就是最大的特征值对应的特征向量，其次是第二大的特征值对应的向量，依次类推。若我们希望将维度降低到 $k$ 维度，则对协方差矩阵进行特征值分解，取前 $k$ 个最大的特征值对应的特征向量组成新的矩阵 $\in R^{n\times k}$ ，然后对样本 $\in R^{m \times n}$ 在k个特征向量上进行投影，得到降维后的向量表示如下：
$Y = X U$
其中 $\in R^{m \times k}$ 表示的是m个样本，每个样本是一个 $k$ 维的向量。
所以我们整理下整个PCA计算步骤：

step 1: 对所有样本进行减去均值归一化， $x^{(i)} = x^{(i)} - \frac{1}{m}\sum_{j=1}^mx^{(j)}$
step 2: 计算样本的协方差矩阵 $\frac{1}{m}XX^T$
step 3: 求解矩阵 $\frac{1}{m}XX^T$ 的特征值和特征向量
step 4: 取出特征值最大的前k个特征值对应的特征向量组成新的矩阵 $W=(w_1, w_2, ..., w_k) \in R^{n \times k}$
step 5: 对m个样本 $\in R^{n\times m}$ 进行矩阵乘法， $Y=X^TW$ 其中 $\in R^{m \times k}$ 表示的是m个样本每个样本降维后得到的新的 $k$ 维向量表示。

6.4 与神经网络模型的关联

神经网络中的自编码（autoencoder)源于主成分的概念，基于重构误差，其中encoder W会在decoder复用，自编码的网络学习，它用于非线性主成分的无监督学习，中间层的隐藏单元创建了一个瓶颈，并学习输入的非线性表示，输出层的权重矩阵是输入层的权重矩阵的转置，因此该网络试图用这种限制性表示再现输入。稀疏编码的一个重要用途是预训练，得到的权重初始化监督神经网络，由于神经网络的目标函数为非凸函数，因而这些起始权重可显著改善最终解的质量。

7 DL常用归一化方法

7.1 Batch Normalization

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

How Does Batch Normalization Help Optimization

7.1.1 动机

训练深度神经网络是比较复杂和困难的，由于每一层的参数不一样，神经网络的每一层的输入值的分布会发生偏移或者变化, 这种现象叫做 internal covariate shift (ICS)，而这种不断的变化会导致模型收敛变慢或者模型发散，原因是，若输入值的分布变化大，会往非线性函数的取值区间的上下限两端靠近（比如对于sigmoid函数，wx+b计算是一个很大的正数或者负数，则函数的导数接近0）也叫非线性函数的饱和区间（saturating nonlinearities），反向传播时候，导致低层神经网络的梯度消失，模型收敛变慢，学习困难。为了解决这个问题，提出了batch normalization，主要通过对网络的每一层输入经过归一化，使得分布服从均值为0，方差为1的标准正态分布，从而保证了输入区间落在了非线性函数的敏感区间，避免饱和区间，防止梯度消失，加快模型的收敛速度。

7.1.2 实现

对于一个输入为 $d$ 维的 $x=（x^{(1)}...x^{(d)})$ （已经经过了 $w x + b$ 的转换），每一维的归一化操作如下：
$\hat{x}^{(k)} = \frac{x^{(k)} -E[x^{(k)}]}{\sqrt{Var[x^{(k)}]}}$
变化后 $x$ 服从了均值为0，方差为1的正态分布，主要目的把值往后续进行的非线性变化的敏感区拉动，增大导数值，保证反向传播的梯度不会消失，加快模型训练的收敛速度。但是这样会导致网络表达能力下降，因为都把值映射到一个相同的标准正态分布区间里，为了加大网络的表达能力，用两个需要学习的参数对变化后的值进行缩放和偏移，对于每个值 $x^{(k)}$ ，用两个参数 $\gamma^{(k)}, \beta^{(k)}$ 进行变化：
$y^{(k)} = \gamma^{(k)}\hat{x}^{(k)} + \beta^{(k)}$
这些参数和模型参数一样，在整个训练过程中，需要进行学习。batch normalization训练过程如下：
在这里插入图片描述
测试的时候，整个网络的均值和方差都固定了，其值为训练过程中每个batch的均值和方差的平均，计算形式如下：
$\gets E_B[\mu_B]$
$\gets \frac{m}{m-1}E_B[\sigma_B^2]$
其中 $B$ 是在训练过程中的所有mini-batch数。则测试阶段，进行归一化操作如下：
$\frac{\gamma}{\sqrt{Var[x]+\varepsilon}} . x+(\beta - \frac{\gamma E(x)}{\sqrt{Var[x]+\varepsilon}})$

7.1.3 总结

通过归一化操作，将输入值映射到非线性变换函数的敏感区域，增加梯度值，防止bp过程梯度消失，加快模型收敛
调参过程会更简单，对于初始化参数不会过于敏感，可以使用大的学习率进行学习等
由于进行归一化操作，神经元的输入值差距不会太大，进而限制神经元有过高的权重，类似dropout这种防止过拟合的作用，所以不用dropout也可以达到相同的效果
BN的本质是让优化问题更加平滑，使得梯度更新更加稳定，减少由于梯度消失或者梯度爆炸导致模型发散，收敛到局部最优等问题

7.2 Layer Normalization

Layer Normalization

7.2.1 动机

Batch Normalization (BN) 存在一些问题：第一，BN是对一个batch样本计算均值和方差，如果batch样本很少（比如在线学习，资源受限等原因导致），则计算出来的均值和方差不能代表整个样本的均值和方差，这样BN效果反而不好；第二，BN对这种序列模型RNN效果不好，主要由于一个batch的每个样本长度不一，越往后的step，样本数据越少，统计出来的信息不能放映全局的分布，而且测试的时候，若序列长度超过了训练的所有长度，则没有提前计算好的统计信息，无法运行BN。为了解决这些问题，提出了Layer Normalization。

7.2.2 实现

Layer Normalization不依赖batch size的算法，所以解决了BN存在的问题，LN通过对每个样本的所有特征数做归一化操作，计算的归一化维度和BN不一样。在MLP中，假设 $H$ 是第 $l$ 层的神经元数量，则LN的计算过程如下：
第一：计算当前层神经元所有特征的均值（在非线性激活之前的值）
$\mu^l=\frac{1}{H}\sum_{i=1}^Ha_i^l$
第二：计算标准差
$\sigma^l = \sqrt{\frac{1}{H}\sum_{i=1}^H(a_i^l - \mu^l)^2}$
第三：归一化操作：减均值，除以标准差
$\hat{a}^l = \frac{a^l - \mu^l}{\sqrt{(\sigma^l)^2 + \varepsilon}}$
第四：类似BN的 $\gamma, \beta$ ，用增益(gain) $\text{ }g$ 和偏置 (bias) $b$ 进行缩放
$h^l = f(g^l \odot \hat{a}^l + b^l)$
对于RNN模型，我们可以看做在每个输入的step时间片做LN操作。

7.2.3 总结

通过归一化操作，Layer Normazation同样可以减轻ICS问题
BN通过对不同样本的同一个特征进行归一化，而LN是对同一个样本的不同特征进行归一化，LN不受batch size影响
LN 不受batch size影响，也适用于RNN等序列模型

7.3 Weight Normalization

Weight Normalization: A Simple Reparameterization
to Accelerate Training of Deep Neural Networks

7.3.1 动机

受batch normazation的启发，但为了解决batch normalization在序列模型例如RNN等，以及一些对噪声较敏感的深度强化学习和生成模型等应用场景，由于batch normalization受mini batch样本量的影响，导致效果不佳等问题，提出了weight normalization。

7.3.2 实现

首先我们来看下，一个神经节点的计算如下：
$\phi(w \cdot x + b)$
其中 $w$ 是一个k维度的权重向量，b是一个偏置标量， $x$ 是一个k维度的输入特征， $\phi(\cdot)$ 表示的是非线性激活函数，最终神经元输出的 $y$ 是一个标量值。最后会根据loss，然后基于随机梯度方法对参数 $w, b$ 进行更新。在这个过程中，为了加快模型的收敛过程，weight normalization通过对 $w$ 参数进行归一化操作，用参数向量 $v$ 和一个标量参数 $g$ 来进行归一化，变化形式如下：
$\frac{g}{||v||}v$
其中 $v$ 也是一个k维度的向量， $g$ 是一个标量， $∣ ∣ v ∣ ∣$ 表示的是向量 $v$ 的欧氏距离。当 $v = w$ 且 $g = ∣ ∣ w ∣ ∣$ 的时候，weight normalization还原为普通的计算，所以经过weight normalization后的权重可变范围是大于归一化之前的，而且 $∣ ∣ w ∣ ∣ = ∣ ∣ g ∣ ∣$ ，与参数向量 $v$ 是独立的。
关于权重归一化在一些早点的工作就有涉及，不过主要是在每次随机梯度更新时候，对权重进行归一化。而weight normalization用两个新的参数变量 $v, g$ 直接参与到每次的梯度更新来。那weight normalization为什么可以加快收敛速度？通过解耦权重向量 $\frac{v}{||v||}$ 方向和范数 $g$ 来加速收敛，而且把方向和范数独立出来后，优化的范围会有更多的选择空间。
但是通常不是直接优化 $g$ ，而是通过优化 $g$ 的log级的参数 $s$ ， $g=e^s$ ，其中 $s$ 是需要通过梯度下降学习的参数变量。之所以用指数形式去表示 $g$ ，最直观的解释是指数形式能够有更广的取值范围（但是论文的试验结论是直接去优化 $g$ ，比这种指数形式效果反而好点）。
梯度计算: 接下来我们来看下weight normalization中，引入新的参数 $v, g$ 后，如何计算梯度值。
首先我们定义: $\nabla_wL$ 为没有做weight归一化之前的损失函数 $L$ 对 $w$ 的梯度，那损失函数对新的变量 $v, g$ 的梯度怎么计算？推到计算形式如下：
$\frac{\partial L}{\partial g} = \frac{\partial L}{\partial w} \frac{\partial w}{\partial g} = \nabla_wL \frac{\partial (\frac{g}{||v||}v)}{\partial g} =\frac{\nabla_wL \cdot v}{||v||}$
$\frac{\partial L}{\partial v} = \frac{\partial L}{\partial w} \frac{\partial w}{\partial v}= \nabla_wL \frac{\partial (\frac{g}{||v||}v)}{\partial v} = \nabla_wL \cdot g(\frac{v^{'}||v|| - v||v||^{'}}{||v||^2})$
$\nabla_wL \cdot g(\frac{||v||}{||v||^2}-\frac{v \cdot v}{||v||^2 \cdot ||v||})$
（说明：其中v的二范数导数 $||v||^{'}=\frac{v}{||v||})$
$=\frac{g}{||v||} \nabla_wL - \nabla_wL \cdot \frac{v}{||v||} \cdot \frac{gv}{||v||^2}$
$=\frac{g}{||v||} \nabla_wL - \frac{g\nabla_gL}{||v||^2}v$
$=\frac{g}{||v||}(I - \frac{vv^{'}}{||v||^2}) \nabla_wL =\frac{g}{||v||}(I - \frac{ww^{'}}{||w||^2}) \nabla_wL=\frac{g}{||v||}M_w \nabla_wL$
从最后的公式可以看出，weight normalization主要有如下两个特征性质：

第一：用 $\frac{g}{||v||}$ 对梯度值进行缩放
第二：用 $M_w$ 对梯度向量 $\nabla_wL$ 进行投影，使得梯度远离当前权重向量 $w$ 方向

首先我们来看下第一点，如果梯度有噪声，则 $∣ ∣ v ∣ ∣$ 会很快变大，则缩放因子 $\frac{g}{||v||}$ 会变小，梯度更新值变小，有self-stabilizes (自我稳定）的作用，减弱由于样本数据集不平衡，对权重产生的影响；而第二点，由于 $\nabla_vL$ 的方向远离当前权重 $w$ 的向量，一定程度上可以减少在这个方向上的噪声干扰。

与BN的关系
对于BN，在激活函数之前，会对输入值进行减去均值，除以方差进行归一化操作：
$t^{'} = \frac{t-\mu[t]}{\sigma[t]}$
其中 $t$ 是在经过激活函数之前的值，我们令 $\cdot x$ 。则变换形式如下：
$t^{'} = \frac{t-\mu[t]}{\sigma[t]}=\frac{v}{\sigma[t]}x - \frac{\mu[t]}{\sigma[t]}$
若只有一层layer，且均值为 $\mu[t]=0$ ，方差为 $\sigma[t]=||v||$ 的情况下，weight normalization和batch normalization等价。
初始化
由于weight normalization只是对参数进行归一化，并没有对输出值进行归一化，所以模型对初始化值较敏感，需要慎重一点，论文中作者建议的初始化方法如下：

对于 $v$ ，使用均值为0，标准差为0.05的正态分布进行初始化
$g$ 和偏置 $b$ 使用第一批样本的统计量进行初始化：
$\gets \frac{1}{\sigma[t]} \text{ }\text{ }\text{ } b \gets \frac{-\mu[t]}{\sigma[t]}$

7.3.3 总结

weight normalization通过对权重进行归一化，进而加快模型的收敛速度
不依赖于batch size，对噪声不敏感，所以适应于序列模型RNN，RL强化学习等模型和场景
对学习率有更好的适应性
由于是对参数权重进行归一化，而不像BN是对特征值进行约束，所以对参数的初始化值较敏感

7.4 Instance Normalization

Instance Normalization:The Missing Ingredient for Fast Stylization

7.4.1 动机

在图像风格迁移等这类任务中，对图像的每个像素信息都非常重要。但BN归一化操作会对一个batch的所有样本进行归一化操作，这样会丢失单个样本的独特细节信息；而LN虽然针对单个样本，但是会对单个样本的图像所有通道进行归一化操作，会损失不同通道的差异信息。为了解决这些问题，作者提出了Instance Normalization (IN)。IN归一化主要是对单个样本，单个通道的所有元素进行归一化，从而保留了单个样本的单个通道的个性化差异。
（说明：一般一张图像是一个三维的矩阵： $\times W \times H$ ，RGB图像，则 $C = 3$ ）

7.4.2 实现

首先我们来看下BN在图像上的操作计算，我们定义 $\in \mathbb{R}^{T \times C \times W \times H}$ 为包含 $T$ 个样本的一个batch的输入，其中 $C$ 是通道数量，若是RGB图像，则代表颜色通道， $W, H$ 表示的是样本的宽和高。 $x_{tijk}$ 表示在 $t i j k$ -th个元素。则BN在图像的归一化计算方式：
$y_{tijk} = \frac{x_{tijk} - \mu_i}{\sqrt{\sigma_i^2 + \varepsilon}}$
$\mu_i = \frac{1}{HWT}\sum_{t=1}^T\sum_{l=1}^W\sum_{m=1}^H x_{tilm}$
$\sigma_i^2 = \frac{1}{HWT}\sum_{t=1}^{T}\sum_{l=1}^W\sum_{m=1}^H(x_{tilm}-\mu_i)^2$
LN归一化计算方式如下：
$y_{tijk} = \frac{x_{tijk} - \mu_t}{\sqrt{\sigma_t^2 + \varepsilon}}$
$\mu_t = \frac{1}{CHW}\sum_{i=1}^C\sum_{l=1}^W\sum_{m=1}^H x_{tilm}$
$\sigma_t^2 = \frac{1}{CHW}\sum_{i=1}^{C}\sum_{l=1}^W\sum_{m=1}^H(x_{tilm}-\mu_t)^2$

接下来我们看IN归一化计算方式：
$y_{tijk} = \frac{x_{tijk} - \mu_{ti} }{\sqrt{\sigma_{ti}^2+\varepsilon}}$
$\mu_{ti} = \frac{1}{HW}\sum_{l=1}^W\sum_{m=1}^Hx_{tilm}$
$\sigma_{ti}^2 = \frac{1}{HW}\sum_{l=1}^W\sum_{m=1}^H(x_{tilm} - \mu_{ti})^2$
从BN，LN和IN的公式对比，IN归一化操作相当于是BN和LN的结合，对单样本单个通道更细粒度进行归一化操作，最后也需要类似BN的 $\gamma, \beta$ 对归一化的结果进行变化，再经过非线性函数变化，得到最终的输出结果值。

7.4.3 总结

在图像生成，风格迁移等对每个像素的差异特性要求保留较高的任务场景中，则IN更加适合
但在MLP和RNN模型结构中，由于每个通道只有一个数据，则IN不能使用
若Feature map较小，也就是 $W, H$ 较小的时候，计算的归一化统计量可能有偏差，不具有代表性

7.5 Group Normalization

Group Normalization

7.5.1 动机

解决BN中容易受batch size的影响，batch size较小的时候，计算的归一化统计量不能代表全局的统计量信息，影响模型的效果。所以，提出了独立于batch size的Group Normalization (GN)，不同于IN是对单个样本单个通道进行归一化操作，GN是对单个样本每个group里所有通道（包含几个通道）进行归一化操作，主要出发点是因为图像的每个通道并不是完全独立的，具有相同特征分布的可以归为同一个group。从论文给出的实验对比来看，在batch size=2较小的时候，GN比BN的loss低10.6%，如下图所示：
在这里插入图片描述

7.5.2 实现

首先我们来看下BN, LN, IN和GN在图像上归一化操作，四者的区别，如下图所示：
在这里插入图片描述
其中 $C$ 表示图像的通道， $N$ 表示batch size， $(W, H)$ 表示的图像范围大小。从上图可以看出， LN，IN和GN都是独立于batch size的，都是为了解决BN中存在的问题，其中GN和IN的归一化范围主要区别是，在通道上，IN对单通道进行归一化，而GN对几个通道组成的一个group进行归一化。假设有 $G$ 个group，则每个group会有 $\frac{C}{G}$ 个通道，相比IN在单个通道上进行归一化，GN会在 $\frac{C}{G}$ 个通道范围上计算统计量，进行归一化。
下面是对比几种归一化操作，在train和val上的error对比：

在这里插入图片描述
整体来看，GN在训练error整体是最低的，不过在val上，BN比GN的error更低点，但整体GN都比IN效果更好，同时相对BN，GN不受batch size影响，对比如下：

7.5.3 总结

GN不受Batch size影响，对通道进行group划分，在每个group里进行归一化操作，不同于IN对单个通道进行归一化操作
在图像领域，传统特征类似基于HOG, SIFT等特征，这些特征都具有按照group组表示，比如频率，灰度，纹理等，所以基于group组进行归一化是mask sense的，而且试验效果明显
group数量是超参数，需要自己定义
同样，GN归一化操作不适合MLP和RNN模型结构中，每个通道只有一个数据

7.6 Switchable Normalization

DIFFERENTIABLE LEARNING-TO-NORMALIZE VIA
SWITCHABLE NORMALIZATION

7.6.1 动机

BN, LN和IN三种归一化方式各有各自的优势，那么有没有一种归一化方式可以结合三种归一化操作方法，不受batch size影响，同时有更好的效果？这就是论文提出的Swtitchable Normalization (SN)，SN的思想很简单直了，对BN, LN和IN三者计算的统计量（均值和标准差）进行加权求和得到新的统计量信息，用来对数据进行归一化操作，而且通过三者之间的计算关系化简，SN复杂度并没有增加。

7.6.2 实现

首先，我们来定义下归一化公式，假设输入时一个4维的tensor $(N, C, H, W)$ ，分别表示：样本数量，通道数量，一个通道的长和宽。 $h_{ncij}$ 表示的是元素值，假设经过归一化后元素值为 $\hat{h}_{ncij}$ ，则归一化操作形式如下：
$\hat{h}_{ncij} = \gamma \frac{h_{ncij}-\mu}{\sqrt{\sigma^2+\varepsilon}} + \beta$
其中 $\gamma$ 和 $\beta$ 是一个缩放和偏置参数， $\mu$ 是均值， $\sigma$ 是标准差， $\varepsilon$ 是一个很小的常量为了防止除法运算数值异常。在IN, LN和BN归一化操作中，大家归一化计算形式都一致，差异的是估计 $\mu, \sigma$ 的统计量不一致。我们用 $\in {in, ln, bn}$ 来区分表示不同的方法， $I_k$ 表示的是计算统计量元素集合。
IN归一化：计算的统计量数量有 $\mu_{in}, \sigma_{in}^2 \in \mathbb{R}^{N \times C}$ ，其中 $I_{in} = \{(i,j) |i \in [1, H], j \in [1, W]\}$ ，IN总共有 $2 N C$ 个统计量值，每个统计量都涉及 $(H ， W)$ 范围区间。
LN归一化：计算的统计量数量有 $\mu_{ln}, \sigma_{ln}^2 \in \mathbb{R}^{N \times 1}$ ，其中 $I_{ln} = \{(c,i,j) |c \in [1, C], i \in [1, H], j \in [1, W]\}$ , LN总共有 $2 N$ 个统计量值，每个统计量都涉及 $(C, H ， W)$ 范围区间。
BN归一化：计算的统计量数量有 $\mu_{bn}, \sigma_{bn}^2 \in \mathbb{R}^{C \times 1}$ ，其中 $I_{bn} = \{(n,i,j) |n \in [1, N], i \in [1, H], j \in [1, W]\}$ , LN总共有 $2 C$ 个统计量值，每个统计量都涉及 $(N, H ， W)$ 范围区间。
SN是IN, LN和BN三个归一化操作计算的统计量的加权之后，计算公式表达如下：
$\hat{h}_{ncij} = \gamma \frac{h_{ncij} - \sum_{k \in \Omega}w_k\mu_k}{\sqrt{\sum_{k \in \Omega}w_k^{'}\sigma_k^2 + \varepsilon}} + \beta$
经过化简，IN, LN和BN三者的计算关系为：
在这里插入图片描述
所以，只要计算IN的统计信息值，IN和BN不需要再额外的重复计算，也就是说SN的复杂度并没有增加，为 $O (N C H W)$ 。额外需要学习6个权重参数，对于均值和方差，BN, IN和LN三个归一化方法算出来的值，每个有一个权重，约束条件如下：
$\sum_{k \in \Omega}w_k =1, \text{} \sum_{k \in \Omega}w^{'}_k =1$
其中对于任意一个值 $w_k, w_k^{'} \in [0,1]$ ，计算如下：
$w_k = \frac{e^{\lambda_k}}{\sum_{z\in\{in,ln,bn\}}e^{\lambda_z}} \text{ }\text{and } k \in \{in,bn,ln\}$
其中 $\lambda_{in}, \lambda_{ln}, \lambda_{bn}, \lambda^{'}_{in}, \lambda^{'}_{ln}, \lambda^{'}_{bn}$ 这6个参数是模型需要学习的。