Batch Normalization:Accelerating Deep Network Training by Reducing Internal Concariate Shift《》

最新推荐文章于 2024-09-09 19:32:55 发布

原创最新推荐文章于 2024-09-09 19:32:55 发布 · 2.4k 阅读

CC 4.0 BY-SA版权

本文探讨了深度学习中Batch Normalization（BN）的作用及其如何解决Internal Covariate Shift问题，加速训练过程并允许使用更高学习率。BN通过归一化每层的输入，改善了梯度消失和梯度爆炸现象，简化了网络权重初始化，支持更多激活函数，有助于构建更深层的神经网络。

internal covariate shift：
由于训练过程中网络参数的变化，导致网络内部激活层分布的变化。
这种思想的由来：
1，统计机器学习中有一个经典的假设:训练数据和测试数据是满足相同分布的。covariate shift：训练集的样本数据分布变化时，训练得到的模型无法很好的Generalization。
2，在神经网络中的各输出层可以作为下一层的输入层，也就是输出层可以作为训练数据，但每一层所指的label不变，所以如果各输出层如果分布不一样，就可以当作是covariate shift。

Introduce
1，介绍了SGD的优缺点，优点比如mini-batch，简单有效之类的。缺点，调参困难，特别是学习率和初始值。参数小的波动会扩大影响整个网络，特别是网络很深的时候。接着通过 $F2(F1(u,θ1),θ2)F_2(F_1(u,\theta_1),\theta_2)$ 说明，如果输入输出的分布相同， $θ2\theta_2$ 就无需调整去补偿x的分布的变化。也是ICS的思想
2，通过sigmod函数的分析，得到当|x|增大时，会导致导数的值趋于0，从而使得x陷入饱和区域，梯度消失。这里也提出另外一些工作比如relu，xavier的初始化。
3，提出ICS，并大致介绍了batch normalization的优点，后文会具体介绍。

Towards Reducing ICS
引入的思想：1，降低ICS。 2，当输入white时，网络训练的收敛速度变快。
大致介绍了在中心化的过程中（不包括除以方差），bias项的改变对中心化后的x没有影响。也就是说 $x^=x−E(x)x=u+b\hat{x} = x - E(x)\\ x= u + b$ 与b无关。因此不需要添加b。又通过矩阵 $Conv[x] = E[xx^T] - E[x]E[x]^T$ 标准化 $Conv^{-1/2}(x-E(x))$ x是层输入，Conv[x]是协方差矩阵，可以看出全维度的normalization的计算量非常大。

Normalzation via Mini-Batch Statistics
这部分反而是最简单的，作者对normalization进行了两个优化
1、由于全维度的normalization计算量太大，对每个特征维度分别进行normalization。比如有d个维度的输入 $x = (x^{(1)} ...,x^{(d)})$
$x^(k)=x(k)−E(x(k))Var[x(k)]\hat{x}^{(k)} = \frac{x^{(k)} - E(x^{(k)})}{\sqrt{Var[x^{(k)}]}}$
作者提出简单的normalization可能会改变层中输入的表达，所以引入 $γk,βk\gamma_k,\beta_k$ ,当 $γk=x(k)\gamma_{{k}} = \sqrt{x^{(k)}}$ $β(k)=E(x(k))\beta^{(k)} = E(x^{(k)})$ 时，还原原始的输入值。
2、由于对整个训练集进行normalization计算量太大（主要是后续的batch normalization的backwards），在SGD中又使用了mini-batch，刚好对mini-batch中的数据进行normalization。

在这里插入图片描述
文中通过进一步的梯度推导公式，也说明了该函数可微分，可以进行backwards。
公式具体如下：

然后是它在测试集上的应用。测试集中使用的方差是方差的无偏估计（无偏估计指的是估计量的数学期望等于被估计参数）
在这里插入图片描述
对于cnn，文中将cnn中的每个特征图当成一个神经元，因此在使用Batch Normalization，mini-batch size 的大小就是：mpq，于是对于每个特征图都只有一对可学习参数：γ、β。说白了吧，这就是相当于求取所有样本所对应的一个特征图的所有神经元的平均值、方差，然后对这个特征图神经元做归一化。
batch normalization 允许使用更大的学习率，在一般情况下当学习率增大时，w变化的范围变大，会导致w的范围变大，从而在正向传播时，每一层的输出范围会变大，在反向传播时，可以大概知道对w求导的导数，与层输出相关，会导致反向传播的值很大，学习率又偏大，就可能导致梯度爆炸。
在这里插入图片描述