神经网络为什么要进行batch norm？

最新推荐文章于 2024-07-30 12:10:19 发布

JanzeeLiu

最新推荐文章于 2024-07-30 12:10:19 发布

阅读量1.7k

点赞数 2

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_36415932/article/details/82938906

探讨了在深度学习中，为何需要使用批量归一化（BatchNorm）。即便输入数据已标准化，深层神经网络的训练过程中，参数更新仍可能引起输出不稳定。批量归一化通过调整中间层输出，确保数值稳定，提升深度模型训练效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在看李沐的视频，其中有一些内容想做一下笔记，这次做的笔记是：神经网络为什么要进行batch norm？

通常我们在使用数据之前，会对输入数据做了标准化处理：处理后的任意一个特征在数据集中所有样本上的均值为 0、标准差为 1。标准化处理输入数据使各个特征的分布相近：这往往更容易训练出有效的模型。(why???我也不知道）

通常来说，数据标准化预处理对于浅层模型就足够有效了。随着模型训练的进行，当每层中参数更新时，靠近输出层的输出较难出现剧烈变化。但对于深层神经网络来说，即使输入数据已做标准化，训练中模型参数的更新依然很容易造成靠近输出层输出的剧烈变化。这种计算数值的不稳定性通常令我们难以训练出有效的深度模型。

为解决这一问题，提出了批量归一化，即batch norm，在模型训练时，批量归一化利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使得整个神经网络在各层的中间输出的数值更稳定。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。