卷积神经网络中的Conv层和BN层融合细节

最新推荐文章于 2024-07-31 22:43:56 发布

海棠花不香

最新推荐文章于 2024-07-31 22:43:56 发布

阅读量3.2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：深度学习 python 文章标签： cnn 深度学习

本文链接：https://blog.youkuaiyun.com/qunsorber/article/details/128792300

python 同时被 2 个专栏收录

12 篇文章

订阅专栏

深度学习

6 篇文章

订阅专栏

本文阐述了批归一化（BN）层的工作原理及其在卷积神经网络中的作用，包括加速模型收敛、充当正则器及减少dropout需求。同时介绍了BN层如何与卷积层进行融合以提高模型推理效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BN层

批归一化层（Batch Normallization）是一种在卷积神经网络模型中大量使用，为了加速模型收敛的技术。为什么CNN 中引入 BN 层可以加速网络的收敛呢？因为将输入的样本数据或特征图，归一化后，改善了输入数据的分布，或者说减少了内部相关变量分布的偏移，模型在统一的分布中更能获取数据的特征。所以这里的归一化，其实是标准化（Standardization）,即
$x_{new} = \frac{x - \mu}{\sigma}$
一张图可以解释，改善输入数据的分布，可以更容易找到模型参数w和b，从而加速模型收敛

在这里插入图片描述

此外，BN 还充当正则器的作用，减少了 dropout 的需要。原文摘要如下

Batch Normalization allows us to use much higher learning rates and be less careful about initialization. It also acts as a regularizer, in some cases eliminating the need for Dropout.

算子融合

在训练时，卷积层和 BN 是两个模块，但是为什么训练时不能融合，而训练完成后，仅执行前向推理却可以融合？因为训练时是按批次输入数据的，BN 就是为了解决小批次输入数据的分布偏移而提出的，因此训练时需要BN层。而训练后的推理，是单样本输入，训练时 BN 的参数已经确定，这些参数相当于对前一层的特征图数据做一次线性变换，而卷积层也可以转化为对特征图的线性变换。因此这两个相邻的算子可以融合。

模型训练时通过移动平均的方法近似获得整个样本集的均值和方差
$\mu = \mu_n = \alpha\mu_{n-1} + (1-\alpha)\cdot\frac{1}{N}\sum_{i}^nx_{i,n}$
对于特征图 F_c,i,j 中第 c 个通道的 ( i , j ) 的值，写程向量和矩阵形式为
$\left(\begin{array}{l} \tilde{F}_{1, i, j} \\ \tilde{F}_{2, i, j} \\ \vdots \\ \tilde{F}_{C, i, j} \end{array}\right)=\left(\begin{array}{cccc} \frac{1}{\sqrt{\sigma_{1}^{2}+\varepsilon}} & 0 & 0 & 0 \\ 0 & \frac{1}{\sqrt{\sigma_{2}^{2}+\varepsilon}} & 0 & 0 \\ 0 & \ddots & 0 & 0\\ 0 & 0 & 0 & \frac{1}{\sqrt{\sigma_{n}^{2}+\varepsilon}} \end{array}\right)\left(\begin{array}{l} F_{1, i, j} \\ F_{2, i, j} \\ \vdots \\ F_{C, i, j} \end{array}\right)+\left(\begin{array}{c} -\frac{\mu_{1}}{\sqrt{\sigma_{1}^{2}+\varepsilon}} \\ -\frac{\mu_{2}}{\sqrt{\sigma_{2}^{2}+\varepsilon}} \\ \vdots \\ -\frac{\mu_{n}}{\sqrt{\sigma_{n}^{2}+\varepsilon}} \end{array}\right)$
即 F = W * x + b，因此可将两者合并
$\tilde{F}_{i, j} = W_{bn}(W_{conv}F_{i,j} + b_{conv}) + b_{bn}$
从而新的卷积层的 W 为 W_bn* W_conv ，新的 b 为 W_bn * W_conv + W_bn