BN(Batch Normalization)

最新推荐文章于 2024-06-17 18:17:07 发布

贾世林jiashilin

最新推荐文章于 2024-06-17 18:17:07 发布

阅读量1.2k

点赞数

分类专栏：深度学习相关文献和理论

本文链接：https://blog.youkuaiyun.com/qq_35290785/article/details/101854879

版权

深度学习相关文献和理论专栏收录该内容

126 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

BN（Batch Normalization）通过减少内部协变量转移加速深度网络训练。它在每一层输入时加入归一化层，使用可学习参数γ和β保持特征分布，改善梯度流动，允许更大学习率，减少初始化依赖，并作为正则化手段。测试时，均值和方差基于整个数据集计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BN训练

1）随机梯度下降法（SGD）对于训练深度网络简单高效，但是它有个毛病，就是需要我们人为的去选择参数，比如学习率、参数初始化、权重衰减系数、Drop out比例等。这些参数的选择对训练结果至关重要，以至于我们很多时间都浪费在这些的调参上。那么使用BN（详见论文《Batch Normalization_ Accelerating Deep Network Training by Reducing Internal Covariate Shift》）之后，你可以不需要那么刻意的慢慢调整参数。

2）神经网络一旦训练起来，那么参数就要发生更新，除了输入层的数据外(因为输入层数据，我们已经人为的为每个样本归一化)，后面网络每一层的输入数据分布是一直在发生变化的，因为在训练的时候，前面层训练参数的更新将导致后面层输入数据分布的变化。以网络第二层为例：网络的第二层输入，是由第一层的参数和input计算得到的，而第一层的参数在整个训练过程中一直在变化，因此必然会引起后面每一层输入数据分布的改变。我们把网络中间层在训练过程中，数据分布的改变称之为：“Internal Covariate Shift”。Paper所提出的算法，就是要解决在训练过程中，中间层数据分布发生改变的情况，于是就有了Batch Normalization，这个牛逼算法的诞生