BN：Batch Normalization 解读

最新推荐文章于 2023-03-01 17:17:09 发布

原创

最新推荐文章于 2023-03-01 17:17:09 发布

· 549 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #神经网络

Batch Normalization（BN）解决了深度网络中'Internal Covariate Shift'的问题，通过标准化和重塑每一层的输出，加速训练，提高泛化性和收敛速度。BN层引入可学习的γ和β参数，保持对原始特征的学习，同时优化数据分布，减少对初始化参数和dropout的依赖。BN对数据增强和完全打乱的数据有很好的鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随机梯度下降法（SGD）对于训练深度网络简单高效，但是它有个毛病，就是需要我们人为的去选择参数，比如学习率、参数初始化、权重衰减系数、Drop out比例等。这些参数的选择对训练结果至关重要，以至于我们很多时间都浪费在这些的调参上。那么使用BN之后，你可以不需要那么刻意的慢慢调整参数。

1.我们知道数据在输入到神经网络之前要进行预处理，其中包括数据增强，裁剪、归一化等操作，这会使网络对数据分布达到更好的训练效果。
2.那是不是考虑将每一层网络的输出也经过一次预处理再输送到下一层网络，通过这样的做法使网络的泛化性和训练速度更优呢？
3.BN层主要是解决“Internal Covariate Shift”的问题，因为网络主要学习的是数据集的分布。但数据经过深层次的网络后分不会发生变化，这样变化后的数据在经过下一层网络，会引发梯度爆炸或消失(只要网络的前面几层发生微小的改变，那么后面几层就会被累积放大下去。一旦网络某一层的输入数据的分布发生改变，那么这一层网络就需要去适应学习这个新的数据分布，所以如果训练过程中，训练数据的分布一直在发生变化，那么将会影响网络的训练速度)。
4.BN的计算流程：

对每层数据都进行这样的操作，防止数据的分布
计算样本均值。
计算样本方差。
样本数据标准化处理。
进行平移和缩放处理。引入了γ和β两个参数。来训练γ和β两个参数。引入了这个可学习重构参数γ、β，让我们的网络可以学习恢复出原始网络所要

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。