BN和LN理解

最新推荐文章于 2025-03-18 23:45:57 发布

今天不标数据的小wu

最新推荐文章于 2025-03-18 23:45:57 发布

阅读量2.1k

点赞数 1

CC 4.0 BY-SA版权

文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/qq_42316533/article/details/117200130

批量归一化(Batch Normalization, BN)和层归一化(Layer Normalization, LN)是两种常用的深度学习正则化技术。BN通过对每个批次的数据在同一维度上进行归一化来加速训练并缓解梯度消失问题，但当batch_size小或在RNN中使用时效果会减弱。相反，LN对每个样本的所有特征进行归一化，适合于序列数据如RNN，但在某些情况下可能无法准确模拟全样本统计特性。这两种方法各有优缺点，选择使用哪种取决于具体任务和数据特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BN

在这里插入图片描述

针对一个batch_size中同一维度的样本在做处理。比如上图，有x1,x2,…,xR个样本，这些样本的第一个维度描述的是体重，第二个维度描述的身高，BN在所有样本的的每一个特征（比如体重维度、身高维度）上进行归一化，
BN的优点：第一个优点可以解决内部协变量偏移，第二个优点就是缓解了梯度饱和问题（如果使用sigmoid函数的话），加快收敛。
BN的缺点：第一个缺点batch_size较小的时候，效果很差，因为BN就是用batch_size中样本的均值和方差去模拟全部样本的均值和方差，这个假设在样本很少的情况下确实是不合理的。第二个缺点就是BN在RNN中效果比较差。因为RNN的输入是动态的，就会出现如下图的情况：
在这里插入图片描述
比如一个batch_size中的样本前9个都是5个单词，最后一个样本20个单词，那么前五个单词的均值和方差都可以通过这10个样本模拟出来，而从第6个到第20个单词的均值和方差就只能利用最后一个样本计算，这就回到了第一个缺点上。