卷机神经网络学习笔记-Batch Normalization的理解以及为什么会有用

最新推荐文章于 2025-04-10 10:56:23 发布

拖延晚期患者

最新推荐文章于 2025-04-10 10:56:23 发布

阅读量285

点赞数

分类专栏：归一化深度学习文章标签：深度学习网络神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/IMToxic/article/details/109692503

版权

本文探讨Batch Normalization（BN）在深度神经网络中的应用，它通过网络学习均值和方差，加速训练过程。BN常置于激活函数前，与PReLU结合使用。BN的主要优点包括：1）归一化特征，加速学习；2）减少内部协变量转移，增强权重稳定性；3）起到轻微正则化效果，防止过拟合。BN通过在小批量数据上计算均值和方差引入一定的噪声，促使网络层间独立性增强。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原论文：《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

下图是过程。

我的理解是，BN做的事就是让网络自己去学习均值与方差，这是网络想要的均值和方差，就是参数 $\gamma$ 和 $\beta$ 。

BN通常在激活函数之前。 BN+PRelu，是常用的结构

然后是为什么。

我在吴恩达的视频里看到的是

第一个原因，本身归一化特征值x就可以是特征都在类似的范围里面，加速学习。比如有十个特征，有的特征是体重，范围可能是30-100，另一个特征可能是身高，范围只在1-2，需要特征归一化才方便网络学习，不然数值较小的特征会被忽略，而本身这个特征和其他特征一样重要。BN不仅对输入进行特征归一化，对后面每个隐藏层的输入都做特征归一化。具体是在网络的输出进入到激活函数之前进行BN。
第二个原因，BN可以让权重更能经受的住变化，或者说减少输入分布的偏移，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。