batch norm反向公式推导

最新推荐文章于 2025-06-24 08:30:00 发布

原创最新推荐文章于 2025-06-24 08:30:00 发布 · 989 阅读

3 ·

CC 4.0 BY-SA版权

深度学习同时被 2 个专栏收录

49 篇文章

订阅专栏

三省吾身

21 篇文章

订阅专栏

本文深入解析批量归一化算法的工作原理，包括其在深度学习中的应用，详细阐述了算法的前向传播和反向传播过程，以及如何通过调整可学习参数来优化网络性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

输入

$X_i=(x_{i0},x_{i1},...,x_{i(n-1)})$ $\in [0,m-1]$ batch-size等于m,特征维度n

输出

$Y_i=(y_{i0},y_{i1},...,y_{i(n-1)})$ $\in [0,m-1]$ 维度和输入 $X$ 一致

前向计算

均值
$μ=μ0,μ1,...,μn\mu = {\mu_0,\mu_1,...,\mu_n}$ 其中
$μp=1m∑ixip\mu_p = \frac{1}{m}\sum_ix_{ip}$
方差
$σ=σ0,σ1,...,σn\sigma = {\sigma_0,\sigma_1,...,\sigma_n}$ 其中
$σp=1m∑i(xip−μp)2\sigma_p = \frac{1}{m}\sum_i(x_{ip}-\mu_p)^2$
中间结果
$x‾ip=xip−μpσp2+ϵ\overline x_{ip}=\frac{x_{ip}-\mu_p}{\sqrt{\sigma_p^2+\epsilon}}$
结果
$yip=γpx‾ip+βpy_{ip}=\gamma_p \overline x_{ip}+\beta_p$ 其中
参数 $γ=γ0,γ1,...,γn−1\gamma = {\gamma_0, \gamma_1,...,\gamma_{n-1}}$ 和
$β=β0,β1,...,βn−1\beta = {\beta_0,\beta_1,...,\beta_{n-1}}$
是learnable parameters

反向计算

$∂O∂xij=∑kl∂O∂ykl∂ykl∂xij=∑kl∂O∂ykl∂ykl∂x‾ij∂x‾ij∂xij=∑kl∂O∂yklγl∂x‾ij∂xij(1)\frac{\partial O}{\partial x_{ij}}=\sum_{kl}{ \frac{\partial O}{\partial y_{kl}} } \frac{\partial y_{kl}}{\partial x_{ij}} = \sum_{kl}{ \frac{\partial O}{\partial y_{kl}} } \frac{\partial y_{kl}}{\partial \overline x_{ij}} \frac{\partial \overline x_{ij}}{\partial x_{ij}} = \sum_{kl}{ \frac{\partial O}{\partial y_{kl}} } \gamma_l \frac{\partial \overline x_{ij}}{\partial x_{ij} } \quad (1)$

$\frac{\partial \overline x_{ij}}{\partial x_{ij}} = \frac { \frac{\partial{ (x_{kl}-\mu_l)}}{\partial x_{ij}} \sqrt{\sigma_l^2+\epsilon} - \frac{ \partial {\sqrt{\sigma_l^2+\epsilon}} }{\partial x_{ij}}(x_{kl}-\mu_l) } { \sigma_l^2+\epsilon } \quad (2)$

$\frac{ \partial (x_{kl}-\mu_l)}{\partial x_{ij}} = \delta_{ki}\delta_{lj} - \delta_{lj} \frac{1}{m} \quad (3)$
其中
$\delta_{pq}= \begin{cases} 1 \quad p=q \\ 0 \quad else \end{cases}$
这个符号可以替代推导过程中的if-else，遇到求和号可以消除
$\frac{\partial \sqrt{\sigma_l^2 + \epsilon}} {\partial x_{ij}} = \frac{1}{m} \frac{1}{\sqrt{\sigma_l^2+\epsilon}} \delta_{lj} (x_{il} - \mu_l) \quad (4)$
(3)(4)带入(2)得到
$\frac{\partial \overline x_{ij}}{\partial x_{ij}} = \delta_{lj} \frac { (\delta_{ki} - \frac{1}{m}) \sqrt{\sigma_l^2 + \epsilon} - \frac{1}{m\sqrt{\sigma_l^2 + \epsilon}}(x_{kl}-\mu_l)(x_{il}-\mu_l) } {\sigma_l^2 + \epsilon}$
上式带入公式(1)得到
$\frac{\partial O}{\partial x_{ij}} = \frac{\gamma_j}{m\sqrt{\sigma_j^2 + \epsilon}(\sigma_j^2 + \epsilon)} ( (\sigma_j^2 + \epsilon)( m\frac{\partial O}{\partial y_{jj}}-\sum_k\frac{\partial O}{\partial y_{kj}}) - (x_{ij}-\mu_j)(x_{kj}-\mu_j)\sum_k\frac{\partial O}{\partial y_{kj}} ) \quad (done)$