理解 Batch Normalization

BN层原理详解

最新推荐文章于 2024-07-30 12:10:19 发布

原创最新推荐文章于 2024-07-30 12:10:19 发布 · 置顶 · 388 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#BN #Batch Normalization #深度学习 #批量归一化

深度学习专栏收录该内容

17 篇文章

订阅专栏

本文深入探讨了Batch Normalization（BN）层的工作原理及其如何解决梯度消失和爆炸问题。通过数学推导展示了BN层如何保持梯度稳定，无论参数如何变化。此外，还介绍了BN层中两个可学习参数γ和β的作用及在训练与预测阶段如何处理。

参考链接：
https://www.zhihu.com/question/38102762
https://zhuanlan.zhihu.com/p/26138673
https://blog.youkuaiyun.com/hjimce/article/details/50866313
https://blog.youkuaiyun.com/myarrow/article/details/51848285

###原理
BN的本质是解决了反向传播过程中的梯度消失问题。
####梯度消失/爆炸问题

前向传播： $h_{l+1} = W_lh_l$
反向传播：
梯度求解的一般形式 $∂L∂hi=∂L∂hl∂hl∂hl−1...∂hi+1∂hi\frac{\partial L}{\partial h_i} = \frac{\partial L}{\partial h_l}\frac{\partial h_l}{\partial h_{l-1}}...\frac{\partial h_{i+1}}{\partial h_i}$
$KaTeX parse error: No such environment: eqnarray at position 7: \begin{̲e̲q̲n̲a̲r̲r̲a̲y̲}̲ \frac{\parti…$
上式的结果为权重的连乘，我们知道： $0.9^{30} = 0.04$ , $1.1^{30} = 17.4$ ，这就解释了为什么会出现梯度消失和爆炸问题。

BN的实质是网络输出的变换。令x为某一卷积网络层的输出，则BN变换 $Y = B N (x)$ 如下：
$xˉ=1M∑i=iMxi\bar x = \frac{1}{M}\sum_{i=i}^Mx_i$
$σx=1M∑i=iM(xi−xˉ)2\sigma_x = \frac{1}{M}\sum_{i=i}^M(x_i-\bar x)^2$
$x^=x−xˉσx+ϵ\hat x = \frac{x - \bar x}{\sqrt{\sigma_x + \epsilon}}$
$Y=γx^+βY= \gamma \hat x + \beta$

那么BN是如何解决梯度消失和爆炸问题的呢？
主要思想：解决scale对梯度的影响，让BN变换至少具有能恢复原始数据的能力。
$∂Yl+1∂hl=∂BN(hl+1)∂hl=∂BN(Wlhl)∂hl=∂BN(αWlhl)∂hl\frac{\partial Y_{l+1}}{\partial h_l} =\frac{\partial BN(h_{l+1})}{\partial h_l} = \frac{\partial BN(W_lh_l)}{\partial h_l} = \frac{\partial BN(\alpha W_lh_l)}{\partial h_l}$
不管参数变化多大，传回上一层的梯度 $∂Yl+1∂hl\frac{\partial Y_{l+1}}{\partial h_l}$ 始终不变，不受尺度scale的影响。
$∂Yl+1∂Wl=∂BN(hl+1)∂Wl=∂BN(Wlhl)∂Wl=1α∂BN(αWlhl)∂Wl\frac{\partial Y_{l+1}}{\partial W_l} =\frac{\partial BN(h_{l+1})}{\partial W_l} = \frac{\partial BN(W_lh_l)}{\partial W_l} = \frac{1}{\alpha} \frac{\partial BN(\alpha W_lh_l)}{\partial W_l}$

对用于更新参数W的梯度 $∂Yl+1∂Wl\frac{\partial Y_{l+1}}{\partial W_l}$ ，如果 $Wl′=αWlW_l' = \alpha W_l$ , 则 $=\frac{1}{\alpha} grad(W)$ 。如果 $α<1\alpha< 1$ ，则 $1α>1\frac{1}{\alpha} > 1$ 说明尺度较大的参数会获得比较小的梯度；相反，尺度较小的参数会获得比较大的梯度，使得整个网络的参数更新变得更加稳健（所以我们最后参数会趋向于同样大小？）

###面试常问问题

BN怎么回事？什么原理？
BN中有两个参数 $γ\gamma$ 和 $β\beta$ 后的均值和方差在训练和预测的时候需要怎么处理？

BN中有两个参数 $γ\gamma$ 和 $β\beta$ ，这个两个参数怎么回事，有什么需要注意的？
这两个参数是可学习的参数。（其实每个BN都包含两个这样的参数）
训练的时候记录每个mini-batch的均值 $μ\mu$ 和方差 $σ2\sigma^2$ ，最后在测试的时候，用均值 $μ\mu$ 和方差 $σ2\sigma^2$ 的无偏估计来计算。
（在pytorch中，一般用momentum来更新Inference时使用的均值 $μ\mu$ 和方差 $σ2\sigma^2$ 。具体来说， $x_{new} = x * (1 - momentum) + momentim * x_t$
参考：https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm2d.html）。

BN和Hisssian矩阵的关系