【图像分类】 EfficientNetV2:更快、更小、更强——论文翻译

7. 结论


摘要

==

本文介绍了 EfficientNetV2,这是一个新的卷积网络家族,与之前的模型相比,它具有更快的训练速度和更好的参数效率。 为了开发这一系列模型,我们结合使用训练感知神经架构搜索和缩放,共同优化训练速度和参数效率。 这些模型采用新的方式(例如 Fused-MBConv)获得更加丰富的搜索空间。我们的实验表明,EfficientNetV2 模型的训练速度比最先进的模型快得多,同时最多可缩小 6.8 倍。

在训练过程中,我们可以通过逐步提升图像大小得到加速,但通常会造成性能掉点。为补偿该性能损失,我们提出了一种改进版的渐进学习方式,它自适应的根据图像大小调整正则化因子,比如dropout、数据增广。

通过渐进式学习,我们的 EfficientNetV2 在 ImageNet 和 CIFAR/Cars/Flowers 数据集上显着优于以前的模型。 通过在相同的 ImageNet21k 上进行预训练,我们的 EfficientNetV2 在 ImageNet ILSVRC2012 上达到了 87.3% 的 top-1 准确率,比最近的 ViT 准确率高 2.0%,同时使用相同的计算资源训练速度提高了 5 到 11 倍。

代码: https://github.com/google/automl/tree/master/efficientnetv2

一、简介

====

随着模型和训练数据的规模越来越大,训练效率对深度学习很重要。 例如,GPT-3 (Brown et al., 2020) 具有前所未有的模型和训练数据规模,展示了在小样本学习方面的卓越能力,但它需要使用数千个 GPU 进行数周的训练,因此很难重新训练或 提升。

最近,训练效率引起了人们的极大兴趣。 例如,NFNets (Brock et al., 2021) 旨在通过去除昂贵的批量归一化来提高训练效率; ResNet-RS(Bello et al。,2021)通过优化缩放超参数来提高训练效率; Lambda Networks(Bello,2021)和BotNet(Srinivas et al。,2021)通过在ConvNets中使用注意力层来提高训练速度。 Vision Transformers (Dosovitskiy et al., 2021) 通过使用 Transformer 块提高了大规模数据集的训练效率。 然而,这些方法通常会在参数大小方面带来昂贵的开销,如图 1(b) 所示。

图 1. ImageNet ILSVRC2012 top-1 准确率 vs. 训练时间和参数——标记为 21k 的模型在 ImageNet21k 上预训练,其他模型直接在 ImageNet ILSVRC2012 上训练。 训练时间是用 32 个 TPU 内核测量的。 所有 EfficientNetV2 模型都经过渐进式学习训练。 我们的 EfficientNetV2 训练速度比其他人快 5 到 11 倍,同时使用的参数最多减少 6.8 倍。 详细信息在表7和图5中。

在本文中,我们结合使用训练感知神经架构搜索 (NAS) 和缩放来提高训练速度和参数效率。 鉴于EfficientNets的参数效率(Tan&Le,2019a),我们首先系统地研究EfficientNets中的训练瓶颈。 我们的研究显示,在EfficientNets中: (1) 用非常大的图像尺寸训练很慢; (2) 在网络浅层中使用Depthwise convolutions速度会很慢。 (3) 每个阶段都按比例放大是次优的。 基于这些观察,我们设计了一个富含附加操作(例如 Fused-MBConv)的搜索空间,并应用训练感知 NAS 和缩放来联合优化模型精度、训练速度和参数大小。 我们发现的名为 EfficientNetV2 的网络的训练速度比之前的模型快 4 倍(图 3),同时参数大小最多小 6.8 倍。

我们的训练可以通过在训练期间逐渐增加图像大小来进一步加快。之前的许多作品,例如渐进式调整大小(Howard,2018),FixRes(Touvron等,2019)和Mix&Match(Hoffer等,2019),在训练中都使用了较小的图像尺寸;然而,它们通常对所有图像尺寸保持相同的正则化,从而导致精度下降。我们认为对于不同的图像大小保持相同的正则化并不理想:对于同一网络,较小的图像大小会导致较小的网络容量,因此需要较弱的正则化;反之亦然,大图像尺寸需要更强的正则化以对抗过拟合(参见第 4.1 节)。基于这一见解,我们提出了一种改进的渐进学习方法:在早期的训练时期,我们用小图像尺寸和弱正则化(例如,辍学和数据增强)训练网络,然后我们逐渐增加图像尺寸并添加更强的正则化.基于渐进式调整大小 (Howard, 2018),但通过动态调整正则化,我们的方法可以加快训练速度,而不会导致准确率下降。

通过改进的渐进式学习,我们的 EfficientNetV2 在 ImageNet、CIFAR-10、CIFAR-100、Cars 和 Flowers 数据集上取得了不错的成绩。在 ImageNet 上,我们实现了 85.7% 的 top-1 准确率,同时训练速度提高了 3 到 9 倍,并且比以前的模型小了 6.8 倍(图 1)。我们的 EfficientNetV2 和渐进式学习还可以更轻松地在更大的数据集上训练模型。例如,ImageNet21k (Russakovsky et al., 2015) 比 ImageNet ILSVRC2012 大 10 倍左右,但我们的 EfficientNetV2 可以使用 32 个 TPUv3 核心的中等计算资源在两天内完成训练。通过在公共 ImageNet21k 2 上进行预训练,我们的 EfficientNetV2 在 ImageNet ILSVRC2012 上达到了 87.3% 的 top-1 准确率,比最近的 ViT-L/16 的准确率高 2.0%,同时训练速度提高了 5 到 11 倍(图 1)。

我们的贡献有三方面:

• 我们引入了 EfficientNetV2,这是一个新的更小、更快的模型系列。 通过我们的训练感知NAS 和扩展发现,EfficientNetV2 在训练速度和参数效率方面都优于以前的模型。

• 我们提出了一种改进的渐进式学习方法,它可以根据图像大小自适应地调整正则化。 我们表明它可以加快训练速度,同时提高准确性。

• 我们在 ImageNet、CIFAR、Cars 和 Flowers 数据集上展示了比现有技术快 11 倍的训练速度和 6.8 倍的参数效率。

神经架构搜索 (NAS):通过自动化网络设计过程,NAS 已被用于优化图像分类(Zoph 等人,2018 年)、对象检测(Chen 等人,2019 年;Tan 等人, 2020),分割(Liu等人,2019),超参数(Donget等人,2020)和其他应用程序(Elsken等人,2019)。以前的 NAS 工作主要集中在提高 FLOPs 效率(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值