论文认为Batch Normalization并不是网络的必要构造,反而会带来不少问题,于是开始研究Normalizer-Free网络,希望既有相当的性能也能支持大规模训练。论文提出ACG梯度裁剪方法来辅助训练,能有效防止梯度爆炸,另外还基于NF-ResNet的思想将SE-ResNet改造成NFNet系列,可以使用4096的超大batch size进行训练,性能超越了Efficient系列
来源:晓飞的算法工程笔记 公众号
论文: High-Performance Large-Scale Image Recognition Without Normalization

- 论文地址:https://arxiv.org/abs/2102.06171
- 论文代码:https://github.com/deepmind/deepmind-research/tree/master/nfnets
Introduction
目前,计算机视觉的大部分模型都得益于深度残差网络和batch normalization,这两大创新能够帮助训练更深的网络,在训练集和测试集上达到很高的准确率。特别是batch normalization,不仅能够平滑损失曲线,使用更大的学习率和batch size进行训练,还有正则化的作用。然而,batch normalization并不是完美,batch normalization在实践中有三个缺点:
- 计算消耗大,内存消耗多。
- 在训练和推理上的用法不一致,并且带来额外的超参数。
- 打破了训练集的minibatch的独立性。
其中,第三个问题最为严重,这会引发一系列的负面问题。首先,batch normalization使得模型难以在不同的设备上复现精度,而且分布式训练经常出问题。其次,batch normalization不能用于要求每轮训练样本独立的任务中,如GAN和NLP任务。最后,batch normalization对batch size十分敏感,在batch size较低时表现较差,限制了有限设备上的模型大小。
因此,尽管batch normalization有很强大的作用,部分研究者仍在寻找一种简单的替代方案,不仅需要精度相当,还要能用在广泛的任务中。目前,大多数的替代方案都着力于抑制残差分支的权值大小,比如在残差分支的末尾引入一个初始为零的可学习的标量。但这些方法不是精度不够,就是无法用于大规模训练,精度始终不如EfficientNets。
至此,论文主要基于之前替代batch normalization的工作,尝试解决其中的核心问题,论文的主要贡献如下:
- 提出Adaptive Gradient Clipping(AGC),以维度为单位,基于权值范数和梯度范数的比例进行梯度裁剪。将AGC用于训练Normalizer-Free网络,使用更大batch size和更强数据增强进行训练。
- 设计Normalizer-Free ResNets系列,命名为NFNets,在ImageNet上达到SOTA,其中NFNet-F1与EfficientNet-B7精度相当,训练速度快8.7倍,最大的NFNet可达到86.5%top-1准确率。
- 实验证明,在3亿标签的私有数据集上预训练后,再在ImageNet上进行finetune,准确率能比batch normalization网络要高,最好的模型达到89.2%top-1准确率。
Understanding Batch Normalization
论文探讨了batch normalization的几个优点,这里简单说一下:
- downscale the residual branch:batch normalization限制了残差分支的权值大小,使得信号偏向skip path直接传输,有助于训练超深的网络。
- eliminate mean-shift:激活函数是非对称且均值非零的,使得训练初期激活后的特征值会变大且均为正数,batch normalization恰好可以消除这一问题。
- regularizing effect:由于batch normalization训练时用的是minibatch统计信息,相当于为当前batch引入了噪声,起到正则化的作用,可以防止过拟合,提高准确率。
- allows efficient large-batch training:batch normalization能够平滑loss曲线,可以使用更大的学习率和bach size进行训练。
Towards Removing Batch Normalization
这篇论文的研究基于作者之前的Normalizer-Free ResNets(NF-ResNets)进行拓展,NF-ResNets在去掉normalization层后依然可以有相当不错的训练和测试准确率。NF-ResNets的核心是采用 h i + 1 = h i + α f i ( h i / β i ) h_{i+1}=h_i+\alpha f_i(h_i/\beta_i) hi+1=hi+αfi(hi/βi)形式的residual block, h i h_i hi为第 i i i个残差块的输入, f i f_i fi为第 i i i个residual block的残差分支。 f i f_i fi要进行特殊初始化,使其有保持方差不变的功能,即 V a r ( f i ( z ) ) = V a r ( z ) Var(f_i(z))=Var(z) Var(fi

论文探讨了去除BatchNormalization对网络性能的影响,提出Normalizer-Free网络和Adaptive Gradient Clipping (AGC)方法,允许使用大batchsize进行训练。NFNet系列在ImageNet上取得SOTA性能,且训练速度提升,证明了无归一化网络的潜力。
最低0.47元/天 解锁文章
335

被折叠的 条评论
为什么被折叠?



