Batch Normalization

最新推荐文章于 2025-05-29 21:53:57 发布

转载最新推荐文章于 2025-05-29 21:53:57 发布 · 1.3k 阅读

深度学习----Deep Learning 专栏收录该内容

15 篇文章

订阅专栏

本文详细介绍了批量归一化(BN)技术，解释了BN如何通过减少内部协变量偏移来加速深层神经网络的训练过程，并讨论了BN在实际应用中的优势和局限性。

部署运行你感兴趣的模型镜像

转载自：http://blog.youkuaiyun.com/shuzfan/article/details/50723877

原论文下载地址：https://arxiv.org/pdf/1502.03167.pdf

1.BN的动力

作者认为：网络训练过程中参数不断改变导致后续每一层输入的分布也发生变化，而学习的过程又要使每一层适应输入的分布，因此我们不得不降低学习率、小心地初始化。作者将分布发生变化称之为 internal covariate shift。

大家应该都知道，我们一般在训练网络的时会将输入减去均值，还有些人甚至会对输入做白化等操作，目的是为了加快训练。为什么减均值、白化可以加快训练呢，这里做一个简单地说明：

首先，图像数据是高度相关的，假设其分布如下图a所示(简化为2维)。由于初始化的时候，我们的参数一般都是0均值的，因此开始的拟合y=Wx+b，基本过原点附近，如图b红色虚线。因此，网络需要经过多次学习才能逐步达到如紫色实线的拟合，即收敛的比较慢。如果我们对输入数据先作减均值操作，如图c，显然可以加快学习。更进一步的，我们对数据再进行去相关操作，使得数据更加容易区分，这样又会加快训练，如图d。
这里写图片描述

白化的方式有好几种，常用的有PCA白化：即对数据进行PCA操作之后，在进行方差归一化。这样数据基本满足0均值、单位方差、弱相关性。作者首先考虑，对每一层数据都使用白化操作，但分析认为这是不可取的。因为白化需要计算协方差矩阵、求逆等操作，计算量很大，此外，反向传播时，白化操作不一定可导。于是，作者采用下面的Normalization方法。

2-Normalization via Mini-Batch Statistics

数据归一化方法很简单，就是要让数据具有0均值和单位方差，如下式：
这里写图片描述
但是作者又说如果简单的这么干，会降低层的表达能力。比如下图，在使用sigmoid激活函数的时候，如果把数据限制到0均值单位方差，那么相当于只使用了激活函数中近似线性的部分（因为做了归一化都是在0均值附近波动，基本不会离均值很多，所以很难到的饱和区域，主要是在近似线性这部分），这显然会降低模型表达能力。
这里写图片描述

为此，作者又为BN增加了2个参数，用来保持模型的表达能力，这两个参数其实就是对变换后的数据进行平移和伸缩，就可以让数据在整个空间移动，却依旧满足同样的分布。
于是最后的输出为：
这里写图片描述
上述公式中用到了均值E和方差Var，需要注意的是理想情况下E和Var应该是针对整个数据集的，但显然这是不现实的。因此，作者做了简化，用一个Batch的均值和方差作为对整个数据集均值和方差的估计。
整个BN的算法如下：
这里写图片描述
在实际应用中，方程里面加了一个微小项，对结果不会有很多大影响，主要是为了防止方程为零的情况，这样就可以解决这个问题了。

求导的过程如下：

3.测试

实际测试网络的时候，我们依然会应用下面的式子：
这里写图片描述
特别注意：这里的均值和方差已经不是针对某一个Batch了，而是针对整个数据集而言。因此，在训练过程中除了正常的前向传播和反向求导之外，我们还要记录每一个Batch的均值和方差，以便训练完成之后按照下式计算整体的均值和方差（利用m/(m-1)主要是无偏估计，在实际操作时，样本点方程都是要这样子，才是无偏估计量）：
这里写图片描述

4.Experiments

作者在文章中也做了很多实验对比，我这里就简单说明2个。
下图a说明，BN可以加速训练。图b和c则分别展示了训练过程中输入数据分布的变化情况。
这里写图片描述

下表是一个实验结果的对比，需要注意的是在使用BN的过程中，作者发现Sigmoid激活函数比Relu效果要好。
这里写图片描述

您可能感兴趣的与本文相关的镜像

AutoGPT

AI应用

AutoGPT于2023年3月30日由游戏公司Significant Gravitas Ltd.的创始人Toran Bruce Richards发布,AutoGPT是一个AI agent（智能体），也是开源的应用程序，结合了GPT-4和GPT-3.5技术，给定自然语言的目标，它将尝试通过将其分解成子任务，并在自动循环中使用互联网和其他工具来实现这一目标