BN,LN,IN,GN的有趣解释

今天在知乎上看到了一个关于四种Normalization特别有趣的讲解,具体的大家可以去读一下大神的原作,

关于四种Normalization的有趣且深刻的解释

下面是转载该作者写的小故事(转载地址如上),分享给大家!

为了能够更直观地理解四种Normalization的异同,大家可以体会下面的故事以做类比:

很久很久以前,在遥远的L国内有一个神奇的理发馆,理发馆里面有很多勤劳的理发师,来这里理发的顾客也很奇特,他们所有人都会要求理发师(神经元)理出和其他人差不多长的头发(求均值)。那么和其他人差不多长究竟是多长呢?这可难不倒我们可爱又聪明的理发师,于是理发师把自己最近24个小时服务过的顾客(Mini-Batch)进入理发店时的头发长度求个平均值,这个均值就是“和其他人差不多长”的长度。来这里的每个顾客都很满意,时间久了,人们尊称这些理发师为:BatchNorm理发师。

不幸总是突然的,有一天,理发馆里发生了一件怪事,所有理发师的记忆只能维持1分钟,他们再也记不住过去24小时中发生的事情了,自然也记不住过去服务客人的头发长度。但是每个顾客仍然要求剪出和其他人差不多长的头发长度,这可怎么办?聪明的理发师们又想出了一个办法:他们相互大声报出同一时刻在理发馆里自己手上客人的头发长度,每个理发师就可以用这些人的头发长度均值作为满足自己手上客人条件的长度。尽管这是一群得了失忆综合证的理发师,但是顾客对他们的服务仍然非常满意,于是人们改称他们为:LayerNorm理发师。

不幸总是突然的,有一天,理发馆里又发生了一件怪事,理发师们不仅得了失忆症,这次都突然失聪,再也听不到其它理发师的口头通知,而固执的客人仍然坚持要理出“和其他人差不多长”的头发。对了,忘了介绍了,理发馆是有隔间的,每个隔间有K个理发师同时给顾客理发,虽然我们可爱又聪明的理发师现在失忆又失聪,但是再大的困难也难不倒也叫不醒这群装睡的人,他们醒来后群策群力又发明了一个新方法:同一个隔间的理发师通过相互打手势来通知其它理发师自己手上顾客的头发长度。于是同一个隔间的理发师又可以剪出顾客满意的头发了。人们称这些身残志坚的理发师为:GroupNorm理发师。

不幸总是突然的,有一天,理发馆里又发生了一件怪事,不过这次不是天灾是人祸,理发馆老板出于好心,给每位理发师单独开个办公室给顾客理发,但是好心办了坏事,这样一来,失忆失聪又无法相互打手势的理发师们怎么应对顽固的顾客呢?怎样才能继续理出“和其他人差不多长”的头发呢?想必一般人这个时候基本无路可走了,但是我们可爱又聪明,同时失聪又失忆的理发师仍然想出了解决办法:他们看了看客人头上的头发,发现不同地方有长有短,于是就把同一个客人所有头发的平均长度作为难题的答案(CNN的InstanceNorm)。听起来这个解决方案匪夷所思,但是出人意料的是,有些客人居然仍然非常满意。人们管这些传说中的神奇理发师为:InstanceNorm理发师

### 不同深度学习归一化方法的特点及对比 #### 批量归一化 (Batch Normalization, BN) 批量归一化是一种广泛应用于卷积神经网络的技术,它通过对每一批数据进行标准化来减少内部协变量偏移。这种方法在大、中批处理场景中表现出色,在多种视觉任务上具有良好的泛化能力[^1]。然而,当批次大小较小时,BN 的性能会显著下降,因为此时估计均值和方差的准确性较低。 #### 层归一化 (Layer Normalization, LN) 层归一化是对单一样本的所有特征维度计算均值和标准差来进行规范化的方法。相比 BNLN 对于小批量训练更加稳定,因为它不依赖于批次统计信息。这种特性使得 LN 成为序列建模任务(如自然语言处理)的理想选择[^2]。 #### 实例归一化 (Instance Normalization, IN) 实例归一化针对的是图像风格迁移领域的问题,其中每个样本被独立地按通道进行归一化操作而不考虑其他样本的影响。这有助于保留输入图片的空间结构并突出纹理细节。 #### 组归一化 (Group Normalization, GN) 组归一化将通道划分为若干组并对每一组单独执行归一化过程。这种方式既避免了 BN 中的小批量问题又保持了一定程度上的效率提升;因此适用于各种规模的数据集以及不同的硬件环境下的模型部署需求。 #### 谱归一化 (Spectral Normalization, SN) 谱归一化的目的是控制权重矩阵的最大奇异值以实现 Lipschitz 连续性的约束条件,主要用于生成对抗网络(GANs)的研究当中。通过限制判别器函数的变化范围可以有效缓解模式崩溃现象的发生概率。 #### 幂次归一化 (PowerNorm, PN) 幂次归一化引入了一个额外参数 k 来调整激活值分布形状从而达到更好的优化效果。相比于传统的 BN 或者 LN 方法来说,它可以更灵活地适应不同类型的任务要求。 #### 双重分组归一化 (Biased Group Normalization, BGN) 双重分组归一化扩展了普通的 GN 结构,允许在同一时间应用两个不同类型的归一化策略——即先做全局级别的再局部级别或者反过来顺序也可以互换。这样的设计能够进一步增强表达力同时维持数值稳定性。 #### 条件批量归一化 (Conditional Batch Normalization, CBN) 条件批量归一化允许外部信号(比如类别标签或其他上下文信息)动态调节归一化过程中使用的缩放和平移因子 gamma 和 beta 。这对于构建可解释性强且交互友好的 AI 应用程序非常有用。 #### 频率响应归一化 (Frequency Response Normalization, FRN) 频率响应归一化旨在解决传统归一化技术可能破坏原始信号频域特性的缺陷。具体而言,它是基于傅里叶变换后的幅度谱定义新的归一化准则,进而更好地保护高频成分免受不必要的抑制作用影响。 #### 自适应批量归一化 (Self-Attention Batch Normalization, SaBN) 自适应批量归一化结合注意力机制来自动生成适合当前 mini-batch 特征表示的最佳归一化方案。该方法不仅提高了收敛速度还增强了最终预测精度水平。 ```python import torch.nn as nn class CustomNormalization(nn.Module): def __init__(self, norm_type='bn'): super(CustomNormalization, self).__init__() if norm_type == 'bn': self.norm_layer = nn.BatchNorm2d(num_features=64) elif norm_type == 'ln': self.norm_layer = nn.LayerNorm(normalized_shape=[64]) # Add other normalization types here... def forward(self, x): return self.norm_layer(x) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值