Tricks：Batch Normalization算法原理

最新推荐文章于 2023-05-08 22:09:57 发布

Taylor不想被展开

最新推荐文章于 2023-05-08 22:09:57 发布

阅读量338

点赞数

分类专栏： Deep Learning Tricks 文章标签：人工智能深度学习机器学习算法

本文链接：https://blog.youkuaiyun.com/weixin_44808161/article/details/126057558

版权

Deep Learning Tricks 专栏收录该内容

4 篇文章

订阅专栏

BatchNormalization（批量归一化）通过规范化每一层的数据分布，加速深度神经网络的训练，提高模型泛化能力。它通过对每个mini-batch求均值和方差进行数据标准化，并引入可学习的γ和β参数进行调整。BN在全连接层和卷积层中应用有所不同，全连接层按特征维度归一化，卷积层则按通道维进行。使用BN的优势包括：提高学习率、替代Dropout、加速收敛且不影响精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、提出背景

二、Batch Normalization算法思路

三、在全连接层和卷积层中的Batch Normalization

四、使用Batch Normalization的优势

一、提出背景

深度神经网络的损失都出现在网络的最后一层，因此在进行反向传播训练时，更深的层训练得更快，而前面的层训练得比较慢。但是当底层网络的参数训练得比较好的时候，深层网络的参数不得不重新进行迭代，因此更深的层需要反复训练多次，导致训练变慢。那么BN的提出，使得不同层数据服从于相近的分布，避免了反复训练，加速收敛。原论文链接：Batch Normalization

二、Batch Normalization算法思路

首先对每一个mini-batch求均值和方差，按照标准化公式对数据进行更新：

然后对于每一个进行normalization的mini-batch，都引入一对可学习的参数γ和β，以此调整数据所服从的分布，γ可以看做是一个标准差，β可以看做是一种均值：

训练过程如下：

在推理时，BN训练完成之后，，当来一个测试样本进行预测时，我们只需要带入固定的参数，根据BN前向传播的公式进行BN就可以了。但是要注意的是：在推理阶段，对均值和方差的求解不再和训练阶段时的求法一样。这里的均值和方差是根据训练过程中每一次batch得到的均值和方差求解得到的，即求每一个batch的均值和方差的期望的无偏估计：