为何要使用BN层及BN层演化

浩瀚之水_csdn

已于 2025-01-21 08:43:05 修改

阅读量1.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习目标检测文章标签： batch 开发语言

于 2018-12-03 10:29:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/a8039974/article/details/84750468

深度学习目标检测专栏收录该内容

345 篇文章

订阅专栏

使用BN层（Batch Normalization层）的原因以及BN层的演化过程，可以归纳如下：

使用BN层的原因

加快网络训练和收敛速度：
- 在深度神经网络中，如果每层的数据分布都不同，将会导致网络难以收敛和训练。BN层通过规范化与线性变换，使得每一层网络的输入数据的均值与方差都在一定范围内（通常被转换为均值为0，方差为1），这样每层数据的分布变得一致，训练会比较容易收敛。
控制梯度爆炸和防止梯度消失：
- 梯度消失和爆炸的根本原因在于反向传播时的链式法则。由于权重的存在会影响链式法则中梯度累积的值，而经过BN层处理后，会消除这种权重放大或缩小的影响，从而解决梯度爆炸和梯度消失的问题。
防止过拟合：
- BN层的使用使得一个batch中的所有样本都被关联在了一起，因此网络不会从某一个训练样本中生成确定的结果。同样一个样本的输出不再仅仅取决于样本本身，也取决于跟这个样本同属一个batch的其他样本。由于每次网络都是随机取batch，这就会使得整个网络不会朝一个方向过度学习，从而在一定程度上避免了过拟合。
提高模型泛化能力：
- BN层可以使得模型对于输入数据的分布变化更加鲁棒，从而提高模型的泛化能力。
允许使用更高的学习率：
- BN层减小了内部协变量偏移，使得模型在训练过程中更加稳定，因此可以使用更高的学习率来加速训练过程。

BN层的演化

起源与基本原理：
- BN层最初是为了解决深度神经网络训练过程中的“内部协变量偏移”（Internal Covariate Shift）问题而提出的。内部协变量偏移指的是在训练过程中，由于网络参数的更新，导致每一层网络的输入分布发生变化。BN层通过在每个batch的数据上进行归一化处理，使得输入数据的分布保持稳定。
引入可学习参数：
- 为了保持网络的表达能力，BN层引入了可学习的参数γ和β，对归一化后的数据进行线性变换。这样，网络可以通过学习这些参数来重构出原始网络所要学习的特征分布。
应用范围的拓展：
- 随着深度学习的发展，BN层被广泛应用于各种类型的神经网络中，如卷积神经网络（CNN）、循环神经网络（RNN）等。同时，BN层也与其他优化技术相结合，如残差连接（Residual Connection）、注意力机制（Attention Mechanism）等，进一步提升神经网络的性能。
针对特定问题的改进：
- 针对BN层在某些场景下的局限性（如小batch size下的性能下降、动态网络结构中的不便使用等），研究者们提出了多种改进方法。例如，使用Group Normalization（GN）或Layer Normalization（LN）等方法来替代BN层，以适应不同的应用场景。

综上所述，BN层在深度学习中发挥着重要作用，其演化过程也反映了深度学习领域的技术进步和发展趋势。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

浩瀚之水_csdn 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。