聊聊深度学习中的BN和LN

最新推荐文章于 2025-11-05 19:40:44 发布

原创

最新推荐文章于 2025-11-05 19:40:44 发布 · 1.4k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #神经网络

在一个深度神经网络中，每一层的神经网络参数发生变化会影响其上层的输入数据分布，又因为DP的网络深度较大，这样层层叠加，导致高层的输入分布变化较大，使得高层的参数需要不断的去适应底层的参数更新。导致神经网络难以训练。

这听起来很糟糕，那么有什么方案去解决这个问题呢？
我们可以为每一层都设立不同的学习率、不同的初始化策略等，去解决这个问题。但是这样的解决方案非常麻烦，而且需要很多人为的经验。而Normalization能够较好的解决该问题，且不需要为每一层单独设置学习率等。

什么是Normalization

上节说到，高层的输入数据由于底层的参数变化发生剧烈震荡，那么在送入上层神经元之前，首先对数据进行平移和伸缩变化，使其分布规范化成在固定区间的标准分布。进一步的，假设有输入向量 $x=(x_1,x_2,\cdots,x_d)$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一只小菜狗:D

关注关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

深入理解NLP中LayerNorm的原理以及LN的代码详解

捡起一束光的博客

12-11

4万+

在NLP中，大多数情况下大家都是用LN（LayerNorm）而不是BN（BatchNorm）。最直接的原因是BN在NLP中效果很差，所以一般不用。LN是把**normalized_shape这几个轴的元素**都放在一起，取平均值和方差的，然后对每个元素进行归一化，最后再乘以对应的$\gamma$和$\beta$（**每个元素不同**）。**LN共有N1*N2个mean和var**（假设输入数据的维度为(N1,N2,normalized_shape），normalized_shape表示多个维度）......

深度学习面试问题目录 | 深度学习目标检测、语义分割、分类上百种面试问答技巧

kay_545

05-15

2574

面试，面经，春招，秋招，算法工程师，python，yolov5，yolo8，yolo

参与评论您还未登录，请先登录后发表或查看评论

自然语言处理: 第二十四章为什么在NLP领域中普遍用LayerNorm 而不是BatchNorm？

victor_manches的博客

03-30

2640

前面讲了架构，其中有一个层归一化layerNorm结构，最近在看不同的大模型结构中也发现会对其优化。但是似乎在CV领域貌似批次归一化BN层用的也很多，那么这两个归一化层到底有什么区别呢？为何在NLP领域几乎都是LN层，而不用BN层呢？一、What is Normalization？Normalization：规范化或标准化，就是把输入数据X，在输送给神经元之前先对其进行平移和伸缩变换，将X的分布规范化成在固定区间范围的标准分布。

关键词解释：LN（Layer Normalization，层归一化）和 BN（Batch Normalization，批归一化）

最新发布

sweet_ran的博客

11-05

832

摘要：LN（层归一化）和BN（批归一化）是深度学习中两种关键归一化技术。BN沿batch维度归一化，适合大batch的CNN任务，但依赖batchsize；LN沿特征维度归一化，适用于RNN/Transformer及小batch场景。BN在CNN中效果更优，而LN在序列模型中表现更好。选择时需考虑模型结构、batchsize等因素，通常“CNN用BN，Transformer用LN”。此外还有GN（组归一化）、IN（实例归一化）等变体适用于特定场景。两者各有优劣，需根据任务特点选择。

transformer 为什么使用 layer normalization，而不是其他的归一化方法？

m0_67769784的博客

04-12

1905

对于深度学习的很多技巧，当你实验做得足够多的时候你就会发现，这类问题的唯一正确答案是：因为实验结果显示这样做效果更好！当然，你非要想找一个像模像样的解释，其实也能尝试一下。对于Transformer为什么用LN而不是BN/IN，我估计《Attention is all you need》的作者们当时肯定没有想那么多，而是发现当时NLP中主流就是用LN，所以就跟着用了。那么，NLP为什么用LN居多呢？非要说原因，大致上是NLP的文本本质上可以看成一个时间序列，而时间序列是不定长的，长度不同的序

LN和BN

weixin_42343912的博客

01-04

670

BN是按照一个batch中所有样本的通道计算均值和方差，它的计算单位是所有蓝色通道，所有黄色通道，所有红色通道。归一化是将数据放缩到[0,1]或[-1,1]这样的区间内，标准化是让数据符合特定均值和方差的分布。LN比较直观就是在每个独立的样本上计算均值和方差，然后归一化。假设batch为2，（2，3，256，256）这样的样本。

LN.BN.GN.IN

weixin_46248767的博客

11-04

514

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目标检测之SSD一、前言一、前言

【深度学习基础】归一化，白化，

Jiangnan_Cai的博客

10-30

457

当然，除了对图像的像素值进行归一化，在目标检测的 YOLO 家族中，我们也会对目标框的坐标和宽高进行归一化处理。归一化后数值落在哪个区间对后续的训练有什么影响呢？但是上面有几个答案都提到了归一化到。是一种更为推荐的归一化方式。

聊一聊Normalization

驽马十驾，功在不舍；锲而不舍，金石可镂。

05-18

998

聊一聊pytorch的BN module1.BN简介1.1 关于Internal Covariate Shift1.2 BN公式2.BN transform计算3.BN 各系数(μ、Var等)的计算及更新过程3.1 running_mean(μ值)的更新3.2 running_var(var值)的更新3.3 其他参数(γ、β)的更新4.来自大拿的实现参考文献 BN1块在深度学习中可以说是经常用的一个工具，但是对其细节学深学透，还真的是需要钻研下。 1.BN简介 1.1 关于Internal Covariat

商汤科技面试——深度学习

FPGA/MATLAB学习教程/源码/项目合作开发

10-27

1100

linux的常用操作：查看文件大小、删除文件、查看文件行数、假如文件中有很多文件，每个文件中又有很多文件，如何删除全部文件。提出一个解决方法，然后挑战我，我又提出另一个解决方法，继续挑战我…循环，大佬总能提出方法中的漏洞，哭，自闭了。说一下使用Pytorch对cifar10数据集分类的整个代码流程，构建模型的过程是怎么样的。假如一个图片中有一个很大的目标还有一个很小的目标，你会怎么处理呢。查了一下，大佬是DeepID-Net的作者之一，膜~感觉是来打击我的，打破我原有的认知(觉得自己好菜啊)

BN和 LN

tangweirensheng的博客

10-13

366

[batch_size, length, feature] BN不同length，对同一 batch_size和 feature的归一化 ,即 [batch_size, 1, feature]做归一化,会有length个输出 LN，不同batch_size ，对同一个lengh和feature的归一化，即[ 1, lenght, feature]做归一化，共有 batch_size个输出，所以不受 batch_size的影响对于一个batch为32的神经网络训练，会有32个均值和...

BN和LN

qq_41284164的博客

09-15

1037

BN和LN对比共同作用：加速网络收敛，避免梯度消失。 BN: Batch Normalization,每个batch中同一个维度每个特征做BN，如橙框所示。 LN: Layer Normalization,对一个样本不同特征做LN，如红框所示。 BN缺点: (1) BN用batch来模拟整个样本分布情况，比较依赖batchsize的大小，如果batchsize太小，则计算的均值、方差不足以代表整个数据分布。 (2)在RNN中，BN效果较差。 (ICML2020:Rethinking Batch Norma

LN和BN对比

m0_53675977的博客

04-01

921

的确，对于神经网络的各层输出，在经过了层内操作后，各层输出分布就会与对应的输入信号分布不同，而且差异会随着网络深度增大而加大了，但每一层所指向的Label仍然是不变的。这是通过训练数据获得的模型能够在测试集上获得好的效果的一个基本保障。2、在训练的时候，是分批量进行填入模型的，但是在预测的时候，如果只有一个样本或者很少量的样本来做inference，这个时候用BN显然偏差很大，例如在线学习场景。3、RNN是一个动态的网络，也就是size是变化的，可大可小，造成多样本维度都没法对齐，所以不适合用BN。

BN与LN的区别

进击的扛把子

04-25

1万+

BN与LN的区别主要区别在于 normalization的方向不同！ Batch 顾名思义是对一个batch进行操作。假设我们有 10行 3列的数据，即我们的batchsize = 10，每一行数据有三个特征，假设这三个特征是【身高、体重、年龄】。那么BN是针对每一列（特征）进行缩放，例如算出【身高】的均值与方差，再对身高这一列的10个数据进行缩放。体重和年龄同理。这是一种“列缩放”。而layer方向相反，它针对的是每一行进行缩放。即只看一笔数据，算出这笔所有特征的均值与方差再缩放。这是一种“行缩放”

BN和LN的区别

天空的味道

04-25

2104

BN 针对一个batch_size中同一维度的样本在做处理。比如上图，有x1,x2,…,xR个样本，这些样本的第一个维度描述的是体重，第二个维度描述的身高，BN在所有样本的的每一个特征（比如体重维度、身高维度）上进行归一化， BN的优点：第一个优点可以解决内部协变量偏移，第二个优点就是缓解了梯度饱和问题（如果使用sigmoid函数的话），加快收敛。 BN的缺点：第一个缺点batch_size较小的时候，效果很差，因为BN就是用batch_size中样本的均值和方差去模拟全部样本的均值和方差，这个假设在

LN层和BN层的区别？

GamBleout的博客

09-23

1149

LN层，即层标准化层，是另一种归一化技术，它主要关注于对神经网络中某一层的所有神经元进行归一化处理。

【深度学习中的批量归一化BN和层归一化LN】BN层（Batch Normalization）和LN层（Layer Normalization）的区别

热门推荐

m0_48086806的博客

08-07

1万+

【深度学习中的批量归一化和层归一化】BN层（Batch Normalization）和LN层（Layer Normalization）的区别

BN和LN的应用场景和特点

WitsMakeMen的专栏

07-09

1062

BN 和 LN 都可以比较好的抑制梯度消失和梯度爆炸的情况。BN不适合RNN、transformer等序列网络，不适合文本长度不定和batchsize较小的情况，适合于CV中的CNN等网络；而LN适合用于NLP中的RNN、transformer等网络，因为sequence的长度可能是不一致的。栗子：如果把一批文本组成一个batch，BN就是对每句话的第一个词进行操作，BN针对每个位置进行缩放就不符合NLP的规律了。

【BN、LN和梯度消失与梯度爆炸】

Island__lee的博客

05-04

2802

BN与LN

深度学习中BN是什么

08-29

### Batch Normalization是什么？ Batch Normalization（简称BN）是一种在深度学习中广泛使用的优化技术，由Sergey Ioffe和Christian Szegedy于2015年提出，旨在加速深度神经网络的训练过程并提高模型的稳定性。其核心思想是对神经网络中每一层的输入进行标准化处理，使得输入数据的分布更加稳定，从而减少内部协变量偏移（Internal Covariate Shift）[^2]。具体来说，BN通过对每个小批量（Batch）数据进行归一化操作，使得每层的输入服从均值为0、方差为1的分布。在此基础上，BN还引入了两个可学习的参数（缩放因子γ和偏移因子β），用于恢复数据的表达能力，从而保证归一化不会降低模型的表示能力[^1]。 ### Batch Normalization的作用 1. **加速训练过程** BN通过减少内部协变量偏移，使得每一层的输入分布更加稳定，从而加快了网络的训练速度。实验表明，使用BN后可以使用更高的学习率，并减少对初始化的敏感度。 2. **提升模型稳定性** BN在训练过程中对每个Batch的数据进行标准化处理，使得网络各层的输入分布更加一致，从而提高了训练过程的稳定性[^3]。 3. **缓解梯度消失和梯度爆炸问题** 在深层神经网络中，梯度消失和梯度爆炸是常见的问题。BN通过对输入进行归一化，有助于保持各层激活值的合理分布，从而减轻这些问题的影响。 4. **具有一定的正则化效果** BN在训练时使用的是每个Batch的均值和方差，因此在一定程度上引入了噪声，这有助于防止模型过拟合。在某些情况下，BN可以部分替代Dropout等正则化方法。 5. **允许使用更大的学习率** 由于BN提升了训练的稳定性，因此可以使用更大的学习率进行训练，而不会导致训练过程发散，从而进一步加快收敛速度[^3]。 ### Batch Normalization的实现流程 1. 计算当前Batch的均值和方差。 2. 对该Batch中的每个样本进行标准化，使其均值为0，方差为1。 3. 引入可学习的缩放参数γ和偏移参数β，对标准化后的数据进行线性变换，以保留网络的表达能力。 4. 在训练过程中，BN层还会维护一个全局的均值和方差，用于推理阶段的数据处理。 ### Batch Normalization的数学表达对于一个输入张量 $ x $，BN的计算过程如下： - 计算Batch的均值： $$ \mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i $$ - 计算Batch的方差： $$ \sigma_B^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2 $$ - 标准化： $$ \hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}} $$ - 缩放与偏移： $$ y_i = \gamma \hat{x}_i + \beta $$ 其中，$\epsilon$ 是一个很小的常数，用于防止除零错误，$\gamma$ 和 $\beta$ 是可学习的参数。 ### Batch Normalization的代码示例以下是一个简单的PyTorch实现： ```python import torch import torch.nn as nn # 定义一个包含Batch Normalization的卷积层 class ConvBNReLU(nn.Module): def __init__(self, in_channels, out_channels, kernel_size, stride=1): super(ConvBNReLU, self).__init__() self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding=kernel_size//2) self.bn = nn.BatchNorm2d(out_channels) self.relu = nn.ReLU(inplace=True) def forward(self, x): x = self.conv(x) x = self.bn(x) x = self.relu(x) return x ``` 在该示例中，`nn.BatchNorm2d` 是PyTorch提供的Batch Normalization层，适用于2D卷积网络。 ---