批量归一化在深度学习中的作用与优势-优快云博客

批量归一化是解决深度神经网络中梯度消失和训练速度问题的有效方法，通过固定小批量数据的均值和方差，增加数值稳定性。它加速了模型收敛，通常应用于全连接层和卷积层的激活函数前，有助于减少内部协变量转移并控制模型复杂度。批量归一化层包含可学习的参数γ和β，用于调整数据分布，但不应与丢弃法同时使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

几乎所有的主流神经网络都会使用批量归一化，虽然这个思想早已出现，但是这个层的出现没多久。同事想要做很深的神经网络时，这更是一个不可避免的层。

现存问题

核心思想

之所以后面的参数会随着前面的参数不停变得原因是方差和均值在不同的层之间在不停地变化，我们可以通过固定住分布来增加数值的稳定性

固定小批量里面的均值和方差
$μB=1∣B∣∑i∈Bxi\mu_B=\frac{1}{|B|}\sum\limits_{i\in B}x_i$ $σB2=∑i∈B(xi−μB)2+ϵ\sigma_B^2=\sum\limits_{i\in B}(x_i-\mu_B)^2+\epsilon$
然后再作额外的调整（可学习的参数）
$xi+1=γxi−μBσB+βx_{i+1}=\gamma\frac{x_i-\mu_B}{\sigma_B}+\beta$
其中 $γ\gamma$ 为方差， $β\beta$ 是均值，都是可学习的参数。作用是假设分布在某一均值和方差下不合适，就可以通过学习一个新的均值和方法，使得神经网络输出的分布更好，但也不能变化的太剧烈，因此往往限制这两个参数的范围。