深度学习：常见的归一化层BatchNorm、LayerNorm、InstanceNorm、GroupNorm和SwitchableNorm

AI Player

已于 2024-05-10 18:02:36 修改

阅读量1.4k

点赞数

分类专栏： Deep Learning 文章标签：深度学习人工智能 Normalization

于 2023-07-28 23:12:47 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43603658/article/details/131957131

版权

Deep Learning 专栏收录该内容

18 篇文章

订阅专栏

深度学习：常见的归一化层BatchNorm、LayerNorm、InstanceNorm、GroupNorm和SwitchableNorm

深度学习中的Norm
附录

深度学习中的Norm

在深度学习中会经常遇到BatchNorm、LayerNorm、InstanceNorm和GroupNorm，四者区别如下：
在这里插入图片描述
除此之外还有SwitchableNorm的方法，下面会逐一进行介绍。

BatchNorm

BatchNorm 的处理对象是对一批样本的同一个通道特征，BatchNorm 是对这批样本的同一维度特征计算均值和方差做归一化，BatchNorm在CV领域应用较多。

BatchNorm的好处有以下三点：
1、提高梯度在网络中的流动。Normalization能够使特征全部缩放到[0,1]，这样在反向传播时候的梯度都是在1左右，避免了梯度消失现象。
2、提升学习速率。归一化后的数据能够快速的达到收敛。
3、减少模型训练对初始化的依赖。

LayerNorm

LayerNorm 的处理对象是每单个样本的所有通道特征，LayerNorm 是对这单个样本的所有维度特征计算均值和方差做归一化。LayerNorm在NLP领域应用较多。

由于不同维度的特征量纲往往不同，那么我们为什么还要使用LayerNorm呢？因为NLP领域中，LayerNorm更为合适。
如果我们将一批文本组成一个batch，那么BatchNorm是对每句话的同一维特征（同一个位置）进行操作，而我们理解文本是一句话一句话地阅读，这不符合NLP的规律。
而LayerNorm则是针对一句话进行归一化的，且LayerNorm一般用在第三维度，如[batchsize, seq_len, dims]中的dims，一般为词向量的维度等等，这一维度各个特征的量纲应该相同。因此也不会遇到上面因为特征的量纲不同而导致的归一化缩放问题。