Batch Normalization、Layer Normalization、Instance Normalization、Group Normalization
本文针对神经网络中常见的Normalization Layer进行解释,以区分其中的不同。其中主要包括Batch Normalization、Layer Normalization、Instance Normalization、Group Normalization四种。
以CNN为例,假设某一卷积层包括C个kernel(即通道数为c),则卷积后得到C个feature maps,其中令feature maps尺寸为H*W。训练时给定batch size为N。
1 Batch Normalization
Batch Normalization针对batch中每个样本得到的同一通道的feature maps进行normalization。可以看出,BN依赖于batch size,当batch size较小时会影响性能。
如下图所示,每次对一列的feature maps进行normalization,重复直到所有features maps都进行了normalization为止。