『Batch Normalization』Batch Normalization一文吃透

Hoshino Ren

已于 2022-05-31 14:04:24 修改

阅读量2.1k

点赞数

分类专栏：一定不可忘记的深度学习物语文章标签： batch 深度学习神经网络

于 2022-05-31 14:02:00 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_41300383/article/details/125064211

版权

一定不可忘记的深度学习物语专栏收录该内容

4 篇文章

订阅专栏

Batch Normalization

在神经网络模型中，批量归一化(Batch Normalization)已然是很常见的一种操作，自2015年被谷歌提出以来，由于能够有效提升网络训练效率，已被广泛应用于处理图像相关的网络。

为了透彻理解BN究竟为何而提出，又起到了什么作用，笔者搜索诸多博客、书籍资料并将内容梳理成本文，以作备忘。

协变量偏移

在机器学习中，一般会假设模型的输入数据的分布是稳定的。

若是模型输入数据的分布发生变化，这种现象被称为 协变量偏移(covariate shift)。

值得一提的是，模型的训练集和测试集的分布不一致，也属于协变量偏移现象。

同理，在一个复杂的机器学习系统中，也会要求系统的各个子模块在训练过程中输入分布是稳定的。若是不满足这一条件，则会称为内部协变量偏移(internal covariate shift, ICS)。

以深度神经网络为例，在训练过程中神经网络内部的数据分布发生变化，便是一种典型的内部协变量偏移现象。

为什么内部的数据分布会发生变化呢？我们通过一个全连接网络进行前向传播的实例来一探究竟。

神经网络前向传播

对于全连接网络的一层来说，设一个Batch的输入 $x_1$ ，隐藏层的权重为 $W_1$ ，两者矩阵相乘得到输出为 $y_1$ ，经过激活函数后得到 $z_1$ 。

当前批次的前向传播
在训练过程中，当一次前向传播结束后，神经网络将会反向传播更新隐藏层参数 $W_1$ 为 $W_2$ 。

当下一个Batch的输入 $x_2$ 进入该层，与更新后的隐藏层参数 $W_2$ 计算得到输出 $y_2$ ，经过激活函数后得到 $z_2$ 。

下一批次的前向传播
由于隐藏层参数的更新，相比于 $z_1$ ，该层的输出数据 $z_2$ 的分布发生变化，进而下一层的输入数据分布发生变化，这便是发生了内部协变量偏移现象。

当前层的输出分布发生变化，即是下一层的输入分布发生变化，此处不必纠结这一问题。

用更为一般化的语言总结这种现象就是：

在训练过程中，由于隐藏层参数的更新，同分布不同批次的数据进入网络同一层后的输出分布发生变化。

ICS一般指的是不同批次的数据进入同一层时的输出分布变化，除此之外，还有几种“分布不同”的情况：

同批次的数据，每穿过一层网络后数据分布均会发生变化。
同批次的数据，不同的样本点分布可能不同。比如一个样本点 $d_1$ 为[1.2, 1.4]，另一个样本点 $d_2$ 是[40, 66]，两者的量级不同， $d_2$ 的数据范围很大，那么会导致 $d_2$ 的参数 $W_2$ 梯度很大，更新速度更快，反之 $W_1$ 的更新速度很慢，于是模型被迫只能使用较小的学习率，以防 $W_2$ 更新时迈的步子太大，导致模型收敛速度慢。

那么，这种内部协变量偏移现象会带来什么问题呢？

引起的问题

收敛速度慢，学习不稳定

本质上，神经网络学习的是数据分布，ICS现象使得网络每一层需要不断适应输入数据的分布变化。

试想，网络刚刚才适应学习了这种分布，然而下一个批次又需要学习另一种分布，像这样“推倒重来”的学习过程很不稳定，从而导致收敛速度降低。

另一方面，由于之前提到的同一批数据中不同样本点的分布可能不同等原因，为保证训练的稳定性和收敛性，在实际应用中往往会采用较小的学习率，防止参数更新过快，从而导致收敛速度降低。

产生梯度消失问题

经过网络前几层的变换，很可能使得后几层的输入数据变得过大或过小，从而掉进激活函数(Sigmoid、Tanh)的饱和区。

Sigmoid函数图像
饱和区的梯度变化很不明显，会产生梯度消失问题，进而导致学习过程停止。

我们希望的是，数据落入激活函数中间的非饱和区。

为了降低内部协变量偏移所带来的负面影响，在训练过程中一般会采用非饱和型激活函数(ReLU)、精细的网络参数初始化，保守的学习率，但这不仅会使得网络的学习速度太慢，还会使得最终效果特别依赖于网络的初始化。

Batch Normalization的登场

批量归一化(Batch Normalization)作为英雄横空出世，一举解决上述问题。

批量归一化可以看作是在每一层输入和上一层输出之间加入了一个新的计算层，对数据的分布进行额外的约束。

其算法流程如图所示：

BN算法流程
核心即为这一公式：

$y^{(k)} = \gamma^{(k)}\frac{x^{(k)}-\mu^{(k)}}{\sqrt{(\sigma^{(k)})^2+\epsilon}}+\beta^{(k)}$

其中，上标 $k$ 表示数据的第 $k$ 维，BN在一个批次数据的各个维度上独立进行； $x^{(k)}$ 是输入数据， $y^{(k)}$ 是BN后的输出数据； $\mu^{(k)}$ 和 $\sigma^{(k)}$ 分别是输入数据当前batch的均值和标准差， $\beta^{(k)}$ 和 $\gamma^{(k)}$ 分别是可学习的平移参数和缩放参数； $\epsilon$ 是防止分母为0的一个小量。

你或许会觉得很眼熟，这不是一个标准化的过程嘛？标准化的公式如下：

$\frac{x-\mu}{\sigma}$

此处需要强调的是，归一化与标准化并不是一回事。

将数据变化为均值为0，方差为1的分布这一过程被称为标准化(Standardization)，而归一化(Normalization)一般指的是将一列数据变化到某个固定区间(范围)中。

可以看出，批量归一化相当于在标准化的基础上利用参数 $\beta$ 和 $\gamma$ 进一步修正分布，至于为何称为批量归一化这一点我并未深入探究。

那么，很自然地会引出一个问题，参数 $\beta$ 和 $\gamma$ 起到什么作用呢？

为什么存在 $\beta$ 和 $\gamma$ ？

保留网络各层在训练过程中的学习成果，使BN模块具有自我关闭能力

如若没有 $\beta$ 和 $\gamma$ ，那么BN就会退化为普通的标准化(Standardization)。训练过程中尽管参数在更新，但是网络各层的输出分布始终不变(均值为0，标准差为1)，无法有效学习。

添加 $\beta$ 和 $\gamma$ 后，网络可以为每个神经元自适应地学习一个量身定做的分布(均值为 $\beta$ ，标准差为 $\gamma$ )，保留每个神经元的学习成果。

从另一个角度来说，若是在训练过程中，网络发现目前的标准化操作并不有效，便可以通过 $\beta$ 和 $\gamma$ 参数再次修正分布的变化，比如当 $\gamma$ 等于 $σ$ ， $\beta$ 等于 $μ$ ，此时数据分布再次恢复原状，相当于进行了“反标准化”。换句话说，参数 $\beta$ 和 $\gamma$ 使得BN模块具有自我关闭能力，当BN导致特征分布被破坏，或者使网络泛化能力减弱时，可以通过这两个参数将其关闭。