批标准化(Batch Normalization, BN)

最新推荐文章于 2025-02-25 22:18:10 发布

Leon_winter

最新推荐文章于 2025-02-25 22:18:10 发布

阅读量3.7k

点赞数 1

分类专栏：深度学习文章标签：批标准化 batch normalization 卷积层批标准化推断过程反向传播过程

本文链接：https://blog.youkuaiyun.com/Leon_winter/article/details/88838231

版权

批标准化(Batch Normalization, BN)旨在解决深层神经网络训练中的梯度消失问题，通过对数据进行标准化，使得数据满足均值为0，方差为1的分布。BN在全连接层和卷积层中应用，通过计算批量数据的均值和方差来调整数据分布，以加速训练并减少内部协变量漂移。在推断过程中，使用训练集的均值和方差。反向传播时，BN层引入了γ和β参数，它们在训练过程中学习，并用于回退操作，确保激活函数保持非线性特性。" 4669170,460822,Tomcat SocketException: No buffer space available 解决方案,"['tomcat', '服务器', 'tcp', '网络编程', '问题排查']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- 批标准化(Batch Normalization, BN)

批标准化(Batch Normalization, BN)

我们知道在深层神经网络训练时，会产生梯度消失问题，梯度消失的一个主要来源就是激活函数，以sigmoid函数为例，自变量在0附近导数较大，自变量越大或者越小都会造成导数缩小，如果数据分布在过小或者过大区域，过小的导数就很可能产生梯度消失问题(为何梯度消失要看激活函数的导数，这涉及到反向传播推导，可以看我的另一篇blog)。在比如，如果我们的数据大量分布在远离0的点，例如20和200，差了10倍，但是经过sigmoid激活后，输出值十分接近(我用torch.sigmoid()函数计算，结果全是1. ，可见差距是非常的小)，这种过强的非线性，就很难体现出数据的差异性。为了解决这些问题，批标准化就被提出。
批标准化的基本思路是把数据拉扯到0附近，让数据满足均值为0，方差为1的正态分布，说到这里，一些人可能会想到某些方法，例如Z-Score标准化，其实批标准化就和Z-Score标准化很像，只不过我们不仅仅对输入做标准化，我们还在每一隐层的输入激活函数前，也加一层标准化。批标准化一般表示成 $y=BN_{\gamma, \beta}(x)$ 。 $BN_{\gamma, \beta}(·)$ 由下面四个操作构成：

上图来自论文Batch normalization: accelerating deep network training by reducing internal covariate shift，我先解释一下输入，假设目前我们想要进行批标准化的是隐层 $l$ ，该隐层输入的size是(B,N)，其中B是batch size，N是当前隐层 $l$ 需要进行批标准化的神经元的个数，如果B=3，N=5，那么当前隐层输入的值，可以表示成下面的式子 $\left[ \begin{matrix} [x_{11} & x_{12} & x_{13} & x_{14} & x_{15} & ] \\ [x_{21} & x_{22} & x_{23} & x_{24} & x_{25} & ] \\ [x_{31} & x_{32} & x_{33} & x_{34} & x_{35} & ] \end{matrix} \right]$

在Algoritm.1算法中，batch中的一个 $x_{i}$ 就是 $x_{i1}, x_{i2}, x_{i3}, x_{i4}, x_{i5}]$ ，得到的 $\mu_{B}, \sigma^{2}_{B},\hat{x}_{i}, y_{i}$ 全是五维的，所以上面的公式其实是向量运算。对于全连接层的批标准化，其实是考虑单个神经元的值为一个集体，这一集体有batch size个元素，在这一集体进行上面的四步操作，神经元间是独立的，同一隐层每个神经元各求得一个 $\mu_{B}, \sigma^{2}_{B}$ 。也就是说， $x_{11}, x_{21}, x_{31}$ 求一个均值，方差； $x_{12}, x_{22}, x_{33}$ 求一个均值，方差……

至于为何会存在 $\gamma, \beta$ ，是因为我们不想让数据经过批标准化后真的落在0附近，以sigmoid为例，0附近接近线性，而我们的神经网络需要依靠激活函数提供分线性，所以会加一个回退操作，这就是 $\gamma, \beta$ 的所用， $\gamma, \beta$ 可以通过反向传播算法进行学习， $\gamma, \beta$ 在上面例子中也是五维的。