《EfficientNetV2》论文精读：EfficientNet的续作，更小的模型更快的训练速度

本文链接：https://blog.youkuaiyun.com/my_name_is_learn/article/details/144827291

在这里插入图片描述

文章目录

1 摘要
2 论文简介
3 EfficientNetV2 架构设计
- 3.1 回顾efficientNet
- 3.2 了解训练效率
3.3.训练感知 NAS 和扩展
4 渐进式学习
- 4.1 动机
- 4.2. 具有自适应正则化的渐进式学习
5 主要结果
6 消融实验
7 结论

1 摘要

在这里插入图片描述
本文介绍了 EfficientNetV2，这是一个新的卷积网络家族，与之前的模型相比，它具有更快的训练速度和更好的参数效率。为了开发这一系列模型，我们结合使用训练感知神经架构搜索和缩放，共同优化训练速度和参数效率。这些模型采用新的方式（例如 Fused-MBConv）获得更加丰富的搜索空间。我们的实验表明，EfficientNetV2 模型的训练速度比最先进的模型快得多，同时最多可缩小 6.8 倍。

在训练过程中，我们可以通过逐步提升图像大小得到加速，但通常会造成性能掉点。为补偿该性能损失，我们提出了一种改进版的渐进学习方式，它自适应的根据图像大小调整正则化因子，比如dropout、数据增广。

通过渐进式学习，我们的 EfficientNetV2 在 ImageNet 和 CIFAR/Cars/Flowers 数据集上显着优于以前的模型。通过在相同的 ImageNet21k 上进行预训练，我们的 EfficientNetV2 在 ImageNet ILSVRC2012 上达到了 87.3% 的 top-1 准确率，比最近的 ViT 准确率高 2.0%，同时使用相同的计算资源训练速度提高了 5 到 11 倍。

代码：https://github.com/google/automl/tree/master/efficientnetv2

2 论文简介

随着模型和训练数据的规模越来越大，训练效率对深度学习很重要。例如，GPT-3 (Brown et al., 2020) 具有前所未有的模型和训练数据规模，展示了在小样本学习方面的卓越能力，但它需要使用数千个 GPU 进行数周的训练，因此很难重新训练或提升。

最近，训练效率引起了人们的极大兴趣。例如，NFNets (Brock et al., 2021) 旨在通过去除昂贵的批量归一化来提高训练效率；ResNet-RS（Bello et al。，2021）通过优化缩放超参数来提高训练效率；Lambda Networks（Bello，2021）和BotNet（Srinivas et al。，2021）通过在ConvNets中使用注意力层来提高训练速度。Vision Transformers (Dosovitskiy et al., 2021) 通过使用 Transformer 块提高了大规模数据集的训练效率。然而，这些方法通常会在参数大小方面带来昂贵的开销，如图 1(b) 所示。

在这里插入图片描述
图 1. ImageNet ILSVRC2012 top-1 准确率 vs. 训练时间和参数——标记为 21k 的模型在 ImageNet21k 上预训练，其他模型直接在 ImageNet ILSVRC2012 上训练。训练时间是用 32 个 TPU 内核测量的。所有 EfficientNetV2 模型都经过渐进式学习训练。我们的 EfficientNetV2 训练速度比其他人快 5 到 11 倍，同时使用的参数最多减少 6.8 倍。

在本文中，我们结合使用训练感知神经架构搜索 (NAS) 和缩放来提高训练速度和参数效率。鉴于EfficientNets的参数效率（Tan＆Le，2019a），我们首先系统地研究EfficientNets中的训练瓶颈。我们的研究显示，在EfficientNets中：

(1) 用非常大的图像尺寸训练很慢；
(2) 在网络浅层中使用Depthwise convolutions速度会很慢。
(3) 每个阶段都按比例放大是次优的。

基于这些观察，我们设计了一个包含附加操作（例如 Fused-MBConv）的搜索空间，并应用训练感知 NAS 和缩放来联合优化模型精度、训练速度和参数大小。我们发现的名为 EfficientNetV2 的网络的训练速度比之前的模型快 4 倍（图 3），同时参数大小最多小 6.8 倍。

我们的训练可以通过在训练期间逐渐增加图像大小来进一步加快。之前的许多作品，例如渐进式调整大小（Howard，2018），FixRes（Touvron等，2019）和Mix＆Match（Hoffer等，2019），在训练中都使用了较小的图像尺寸;然而，它们通常对所有图像尺寸保持相同的正则化，从而导致精度下降。我们认为对于不同的图像大小保持相同的正则化并不理想：对于同一网络，较小的图像大小会导致较小的网络容量，因此需要较弱的正则化；反之亦然，大图像尺寸需要更强的正则化以对抗过拟合（参见第 4.1 节）。基于这一见解，我们提出了一种改进的渐进学习方法：在早期的训练时期，我们用小图像尺寸和弱正则化（例如，dropout和数据增强）训练网络，然后我们逐渐增加图像尺寸并添加更强的正则化.基于渐进式调整大小 (Howard, 2018)，但通过动态调整正则化，我们的方法可以加快训练速度，而不会导致准确率下降。

通过改进的渐进式学习，我们的 EfficientNetV2 在 ImageNet、CIFAR-10、CIFAR-100、Cars 和 Flowers 数据集上取得了不错的成绩。在 ImageNet 上，我们实现了 85.7% 的 top-1 准确率，同时训练速度提高了 3 到 9 倍，并且比以前的模型小了 6.8 倍（图 1）。我们的 EfficientNetV2 和渐进式学习还可以更轻松地在更大的数据集上训练模型。例如，ImageNet21k (Russakovsky et al., 2015) 比 ImageNet ILSVRC2012 大 10 倍左右，但我们的 EfficientNetV2 可以使用 32 个 TPUv3 核心的中等计算资源在两天内完成训练。通过在公共 ImageNet21k 2 上进行预训练，我们的 EfficientNetV2 在 ImageNet ILSVRC2012 上达到了 87.3% 的 top-1 准确率，比最近的 ViT-L/16 的准确率高 2.0%，同时训练速度提高了 5 到 11 倍（图 1）。

我们的贡献有三方面：

我们引入了 EfficientNetV2，这是一个新的更小、更快的模型系列。通过我们的训练感知NAS 和扩展发现，EfficientNetV2 在训练速度和参数效率方面都优于以前的模型。
我们提出了一种改进的渐进式学习方法，它可以根据图像大小自适应地调整正则化。我们表明它可以加快训练速度，同时提高准确性。
我们在 ImageNet、CIFAR、Cars 和 Flowers 数据集上展示了比现有技术快 11 倍的训练速度和 6.8 倍的参数效率。

神经架构搜索 (NAS)：通过自动化网络设计过程，NAS 已被用于优化图像分类（Zoph 等人，2018 年）、对象检测（Chen 等人，2019 年；Tan 等人， 2020），分割（Liu等人，2019），超参数（Donget等人，2020）和其他应用程序（Elsken等人，2019）。以前的 NAS 工作主要集中在提高 FLOPs 效率（Tan & Le, 2019b;a）或推理效率（Tan et al., 2019; Cai et al., 2019; Wu et al., 2019; Li et al., 2021） .与之前的工作不同，本文使用 NAS 来优化训练和参数效率。

3 EfficientNetV2 架构设计

在本节中，我们研究了 EfficientNet (Tan & Le, 2019a) 的训练瓶颈，并介绍了我们的训练感知 NAS 和扩展，以及 EfficientNetV2 模型。

3.1 回顾efficientNet

EfficientNet (Tan & Le, 2019a) 是一系列针对 FLOP 和参数效率进行了优化的模型。它利用NAS搜索基线EfficientNet-B0，该基线在精度和FLOP方面具有更好的权衡。然后使用复合缩放策略放大基线模型以获得模型 B1-B7 的家族。虽然最近的其它工作声称在训练或推理速度方面取得了巨大进步，但它们在参数和 FLOP 效率方面通常比 EfficientNet 差（表 1）。在本文中，我们的目标是在保持参数效率的同时提高训练速度。

在这里插入图片描述

3.2 了解训练效率

我们研究了 EfficientNet (Tan & Le, 2019a) 的训练瓶颈，以下也称为 EfficientNetV1，以及一些提高训练速度的简单技术。使用非常大的图像尺寸进行训练很慢：正如之前的作品 (Radosavovic et al., 2020) 所指出的那样，EfficientNet 的大图像尺寸会导致大量内存使用。由于 GPU/TPU 上的总内存是固定的，我们必须以较小的批大小训练这些模型，这大大减慢了训练速度。一个简单的改进是应用 FixRes（Touvron 等人，2019 年），通过使用比推理更小的图像尺寸进行训练。如表 2 所示，较小的图像尺寸导致较少的计算并支持大批量，从而将训练速度提高多达 2.2 倍。值得注意的是，正如 (Touvron et al., 2020; Brock et al., 2021) 中所指出的，使用较小的图像尺寸进行训练也会导致准确性稍好一些。但与 (Touvron et al., 2019) 不同的是，我们不会在训练后对任何层进行微调。在第 4 节中，我们将探索更高级的训练方法，通过在训练期间逐步调整图像大小和正则化

在这里插入图片描述
Depthwise convolutions在早期层中很慢：EfficientNet 的另一个训练瓶颈来自广泛的Depthwise convolutions（Sifre，2014）。Depthwise 卷积比常规卷积具有更少的参数和 FLOP，但它们通常不能充分利用现代加速器。最近，Fused-MBConv 在 (Gupta & Tan, 2019) 中提出，后来在 (Gupta & Akin, 2020; Xiong et al., 2020; Li et al., 2021) 中使用，以更好地利用移动或服务器加速器。如图2所示，它用单个常规conv3x3替换了MBConv中的深度conv3x3和扩展conv1x1（Sandler等人，2018；Tan＆Le，2019a），如图2所示。为了系统地比较这两个构件，我们逐步替换了原始的MBConv在 EfficientNetB4 中使用 Fused-MBConv（表 3）。在早期阶段 1-3 中应用时，Fused-MBConv 可以在参数和 FLOPs 的开销很小的情况下提高训练速度，但是如果我们用 Fused-MBConv（阶段 1-7）替换所有块，那么它会显着增加参数和 FLOPs，同时也减慢了训练。找到这两个构建块 MBConv 和 Fused-MBConv 的正确组合非常重要，这促使我们利用神经架构搜索来自动搜索最佳组合。

在这里插入图片描述
图 2. MBConv 和 Fused-MBConv 的结构

在这里插入图片描述
每个阶段均等地扩展是次优的：EfficientNet 使用简单的复合扩展规则同等地扩展所有阶段。例如，当深度系数为 2 时，网络中的所有阶段都会使层数增加一倍。然而，这些阶段对训练速度和参数效率的贡献并不相同。在本文中，我们将使用非均匀缩放策略来逐步添加到后期阶段。此外，EfficientNets 积极扩大图像大小，导致大量内存消耗和缓慢训练。为了解决这个问题，我们稍微修改了缩放规则并将最大图像尺寸限制为较小的值。

3.3.训练感知 NAS 和扩展

为此，我们学习了多种设计选择以提高训练速度。为了搜索这些选择的最佳组合，我们现在提出一种具有培训意识的NAS。

NAS 搜索：我们的训练感知 NAS 框架主要基于之前的 NAS 工作（Tan 等人，2019 年；Tan & Le，2019a），但旨在共同优化现代加速器的准确性、参数效率和训练效率。具体来说，我们使用 EfficientNet 作为我们的主干。我们的搜索空间是一个类似于 (Tan et al., 2019) 的基于阶段的分解空间，它由卷积运算类型 fMBConv、Fused-MBConvg、层数、内核大小 f3x3、5x5g、扩展率 f1 的设计选择组成, 4, 6g。另一方面，我们通过

（1）删除不必要的搜索选项（例如池化跳过操作）来减小搜索空间大小，因为它们从未在原始 EfficientNet 中使用；
(2) 从主干中重用相同的通道大小，因为它们已经在 (Tan & Le, 2019a) 中搜索过。

由于搜索空间更小，我们可以应用强化学习（Tan 等人，2019 年）或简单地在与 EfficientNetB4 大小相当的更大网络上进行随机搜索。具体来说，我们对多达 1000 个模型进行了采样，并对每个模型进行了大约 10 个 epoch 的训练，并减少了用于训练的图像大小。我们的搜索奖励结合了模型精度 A、归一化训练步骤时间 S 和参数大小 P，使用简单的加权乘积 A·Sw·Pv，其中 w = -0.07 和 v = -0.05 是根据经验确定的超参数平衡类似于（Tan et al., 2019）的权衡。

EfficientNetV2 架构：表 4 显示了我们搜索的模型 EfficientNetV2-S 的架构。与 EfficientNet 主干相比，我们搜索的 EfficientNetV2 有几个主要区别：

（1）第一个区别是 EfficientNetV2 广泛使用 MBConv（Sandler et al., 2018; Tan & Le, 2019a）和新添加的 fused-MBConv（Gupta & Tan, 2019) 在早期层。
(2) 其次，EfficientNetV2 更喜欢 MBConv 的较小扩展率，因为较小的扩展率往往具有较少的内存访问开销。
(3) 第三，EfficientNetV2 更喜欢较小的 3x3 内核大小，但它增加了更多层以补偿较小内核大小导致的感受野减少。
(4) 最后，EfficientNetV2 完全删除了原始 EfficientNet 中的最后一个 stride-1 阶段，可能是由于其较大的参数大小和内存访问开销。

在这里插入图片描述
EfficientNetV2 缩放：我们使用与 (Tan & Le, 2019a) 类似的复合缩放来扩展 EfficientNetV2-S 以获得 EfficientNetV2-M/L，并进行一些额外的优化：

(1) 我们将最大推理图像大小限制为 480，因为非常大图像通常会导致昂贵的内存和训练速度开销；
(2) 作为启发式方法，我们还逐渐向后期阶段（例如表 4 中的阶段 5 和 6）添加更多层，以在不增加太多运行时开销的情况下增加网络容量。

在这里插入图片描述

图 3. ImageNet 在 TPUv3 上的准确率和训练步骤时间——步骤时间越短越好；所有模型都使用固定图像大小进行训练，无需渐进式学习。

训练速度比较：图 3 比较了我们新的 EfficientNetV2 的训练步骤时间，其中所有模型都使用固定图像大小进行训练，没有进行渐进式学习。对于 EfficientNet (Tan & Le, 2019a)，我们展示了两条曲线：一条是用原始推理大小训练的，另一条是用小 30% 的图像大小训练的，与 EfficientNetV2 和 NFNet 相同 (Touvron et al., 2019; Brock等人，2021年）。所有模型都训练了 350 个 epoch，除了 NFNets 训练了 360 个 epoch，所以所有模型的训练步骤数相似。有趣的是，我们观察到当训练得当时，EfficientNets 仍然实现了相当强的性能权衡。更重要的是，通过我们的训练感知 NAS 和扩展，我们提出的 EfficientNetV2 模型的训练速度比其他近期模型快得多。这些结果也与我们的推理结果一致，如表 7 和图 5 所示。

4 渐进式学习

4.1 动机

如第3节所述，图像大小在训练效率中起着重要作用。除了 FixRes（Touvron 等人，2019 年），许多其他工作在训练期间动态改变图像大小（Howard，2018 年；Hoffer 等人，2019 年），但它们通常会导致准确率下降。我们假设准确率下降来自不平衡的正则化：当用不同的图像尺寸训练时，我们也应该相应地调整正则化强度（而不是像以前的工作那样使用固定的正则化）。实际上，大型模型通常需要更强的正则化来对抗过度拟合：例如，与B0相比，EfficientNet-B7使用更大的丢失量和更强大的数据增强功能。在本文中，我们认为即使对于相同的网络，较小的图像尺寸导致较小的网络容量，因此需要较弱的正则化；反之亦然，更大的图像尺寸会导致更大容量的更多计算，因此更容易过拟合。为了验证我们的假设，我们训练了一个模型，从我们的搜索空间中采样，具有不同的图像大小和数据增强（表 5）。图像尺寸较小时，精度最好，增强较弱；但是对于更大的图像，它在更强的增强下表现更好。这种见解促使我们在训练期间自适应地调整正则化和图像大小，从而改进了渐进式学习方法。

在这里插入图片描述

4.2. 具有自适应正则化的渐进式学习

图 4 说明了我们改进的渐进式学习的训练过程：在早期训练时期，我们用较小的图像和弱正则化训练网络，以便网络可以轻松快速地学习简单的表示。然后，我们逐渐增加图像大小，但也通过添加更强的正则化使学习变得更加困难。我们的方法建立在 (Howard, 2018) 的基础上，它逐渐改变图像大小，但在这里我们也自适应地调整正则化。

在这里插入图片描述

图 4. 我们改进的渐进式学习中的训练过程——从小图像尺寸和弱正则化（epoch=1）开始，然后随着更大的图像尺寸和更强的正则化逐渐增加学习难度：更大的丢失率、RandAugment 幅度和混合比率（例如，epoch=300）。

形式上，假设整个训练总共有 N 个步骤，目标图像大小为 $S_e$ ，具有正则化幅度 $\Phi_e=\{\phi_e^k\}$ 的列表，例如，其中 k 表示一种正则化类型，例如 dropout rate 或 mixup rate 值。我们将训练分为 M 个阶段：对于每个阶段 1 ≤ i ≤ M，使用图像大小 $S_i$ 和正则化幅度 $\Phi_i=\{\phi_i^k\}$ 训练模型。最后阶段 M 将使用目标图像大小 $S_e$ 和正则化 $\Phi_e$ 。为简单起见，我们启发式地选取初始图像大小 $S_0$ 和正则化 $\Phi_0$ ，然后使用线性插值来确定每个阶段的值。算法 1 总结了该过程。在每个阶段的开始，网络将继承前一阶段的所有权重。与权重（例如位置嵌入）可能取决于输入长度的转换器不同，ConvNet 权重与图像大小无关，因此可以轻松继承。

在这里插入图片描述
我们改进的渐进式学习通常与现有的正则化兼容。为简单起见，本文主要研究以下三种类型的正则化：

Dropout（Srivastava等人，2014）：网络级正则化，通过随机丢弃信道来减少共适应。我们将调整辍学率γ。
RandAugment（Cubuk 等人，2020 年）：每个图像的数据增强，幅度可调。
Mixup（Zhang 等人，2018 年）：交叉图像数据增强。给定两个带有标签 (xi, yi) 的图像和 (xj, yj)，它将它们与混合比 λ 组合在一起： $\tilde{x_i}=\lambda x_j+(1-\lambda)x_i$ 和 $\tilde{y_i}=\lambda y_j+(1-\lambda)y_i$ 。我们将在训练期间调整混合比 λ。

5 主要结果

本节介绍我们的实验设置、ImageNet 上的主要结果，以及 CIFAR-10、CIFAR-100、car和flower的迁移学习结果。

5.1 ImageNet ILSVRC2012

设置：ImageNet ILSVRC2012 (Russakovsky et al., 2015) 包含大约 128 万张训练图像和 50,000 张验证图像，包含 1000 个类别。在架构搜索或超参数调整期间，我们从训练集中保留 25,000 张图像（约 2%）作为用于准确性评估的最小值。我们还使用 minival 来执行提前停止。我们的 ImageNet 训练设置主要遵循 EfficientNets (Tan ＆Le，2019a）：具有衰减0.9和动量0.9的RMSProp优化器；批量规范动量 0.99；重量衰减 1e-5。我为每个模型训练了350个时期，总批次大小为4096。学习率首先从0升高到0.256，然后每2.4个时期衰减0.97。我们使用具有0.9999衰减率的指数移动平均值，RandAugment（Cubuk等人，2020），Mixup（Zhang等人，2018），Dropout（Srivastava等人，2014）和随机深度（Huang等人，2016） ) 0.8 生存概率。

对于渐进式学习，我们将训练过程分为四个阶段，每个阶段大约 87 个 epoch：早期阶段使用具有弱正则化的小图像尺寸，而后期阶段使用具有更强正则化的较大图像尺寸，如算法 1 所述。表 6 显示了图像大小和正则化的最小值（第一阶段）和最大值（最后阶段）。为简单起见，所有模型都使用相同的最小尺寸和正则化值，但它们采用不同的最大值，因为较大的模型通常需要更多的正则化来对抗过拟合。遵循（Touvron 等人，2020 年），我们用于训练的最大图像尺寸比推理小约 20%，但在训练后我们不会对任何层进行微调。

在这里插入图片描述

速度和参数效率 ：值得注意的是，这种加速是渐进式训练和更好的网络的结合，我们将在消融研究中研究它们各自的影响。最近，Vision Transformers 在 ImageNet 准确性和训练速度方面取得了令人瞩目的成果。然而，我们在这里展示了经过改进训练方法的正确设计的 ConvNets 在准确性和训练效率方面仍然可以在很大程度上优于视觉变换器。特别是，我们的EfficientNetV2-L达到了85.7％的top-1准确性，超过了ViT-L / 16（21k），ViT-L / 16（21k）是在更大的ImageNet21k数据集上预训练的更大的Transformer模型。在这里，ViT在ImageNet ILSVRC2012上没有很好地调整。DeiTs 使用与 ViTs 相同的架构，但通过添加更多的正则化来获得更好的结果。尽管我们的 EfficientNetV2 模型针对训练进行了优化，但它们在推理方面也表现良好，因为训练速度通常与推理速度相关。图 5 显示了基于表 7 的模型大小、FLOP 和推理延迟。由于延迟通常取决于硬件和软件，因此我们在这里使用相同的 PyTorch 图像模型代码库（Wightman，2021）并使用批量大小为 16。总的来说，我们的模型比 EfficientNets 的参数/FLOPs 效率略高，但我们的推理延迟比 EfficientNets 快 3 倍。与最近专门针对 GPU 优化的 ResNeSt 相比，我们的 EfficientNetV2-M 的准确度提高了 0.6%，推理速度提高了 2.8 倍。

5.2 ImageNet21k

设置：ImageNet21k (Russakovsky et al., 2015) 包含大约 1300 万张训练图像和 21,841 个类别。原始ImageNet21k没有训练/评估划分，因此我们保留了随机选择的100,000张图像作为验证集，而将其余图像用作训练集。我们在很大程度上重用了与 ImageNet ILSVRC2012 相同的训练设置，但有一些变化：

（1）我们将训练时期更改为 60 或 30 以减少训练时间，并使用余弦学习率衰减，无需额外调整即可适应不同的步骤；
(2) 由于每个图像有多个标签，我们在计算 softmax 损失之前将标签归一化为总和为 1。在 ImageNet21k 上预训练后，每个模型在 ILSVRC2012 上使用余弦学习率衰减微调 15 个时期。

结果：表 7 显示了性能比较，其中标有21k的模型在ImageNet21k上进行了预训练，并在ImageNet ILSVRC2012上进行了微调。与最近的 ViT-L/16(21k) 相比，我们的 EfficientNetV2-L(21k) 将 top-1 的准确率提高了 1.5%（85.3% 对 86.8%），使用的参数减少了 2.5 倍，FLOP 减少了 3.6 倍，同时训练和推理速度提高 6 到 7 倍。

在这里插入图片描述

图 5. 模型大小、FLOP 和推理延迟 – 在 V100 GPU 上使用批量大小 16 测量延迟。21k 表示在 ImageNet21k 图像上预训练，其他只是在 ImageNet ILSVRC2012 上训练。与EfficientNet相比，我们的EfficientNetV2具有更高的参数效率，但推理速度提高了3倍。

我们想强调一些有趣的观察：

在高精度情况下，扩大数据规模比简单扩大模型规模更有效：当 top-1 准确率超过 85% 时，由于严重过拟合，很难通过简单地增加模型规模来进一步改进。但是，额外的 ImageNet21K 预训练可以显着提高准确性。在以前的工作中也观察到了大型数据集的有效性（Mahajan 等人，2018 年；Xie 等人，2020 年；Dosovitskiy 等人，2021 年）。
ImageNet21k 上的预训练可能非常有效。尽管 ImageNet21k 的数据增加了 10 倍，但我们的训练方法使我们能够使用 32 个 TPU 内核在两天内完成 EfficientNetV2 的预训练（而不是 ViT 的几周时间（Dosovitskiy 等人，2021））。这比在 ImageNet 上训练更大的模型更有效。我们建议未来对大规模模型的研究使用公共 ImageNet21k 作为默认数据集。

在这里插入图片描述

5.3. 迁移学习数据集

设置：我们在四个迁移学习数据集上评估我们的模型：CIFAR-10、CIFAR-100、Flowers 和 Cars。表 9 包括这些数据集的统计数据。对于这个实验，我们使用在 ImageNet ILSVRC2012 上训练的检查点。为了公平比较，这里没有使用 ImageNet21k 图像。我们的微调设置与 ImageNet 训练大致相同，但有一些类似于（Dosovitskiy 等人，2021 年；Touvron 等人，2021 年）的修改：我们使用较小的批次大小 512，较小的初始学习率 0.001，并带有余弦衰减。对于所有数据集，我们以固定的10,000个步骤训练每个模型。由于每个模型都经过微调几步，我们禁用权重衰减，并使用简单的抠图数据扩充。

在这里插入图片描述
结果：表 8 比较了迁移学习的性能。总的来说，我们的模型在所有这些数据集上的表现都优于以前的 ConvNets 和 Vision Transformers，有时差距很大：例如，在 CIFAR-100 上，EfficientNetV2-L 的准确度比之前的 GPipe/EfficientNets 高 0.6%，准确度提高 1.5% 比之前的 ViT/DeiT 模型。这些结果表明，我们的模型的泛化能力也远远超出了 ImageNet。

在这里插入图片描述

6 消融实验

6.1 与 EfficientNet 的比较

在本节中，我们将在相同的训练和推理设置下比较我们的 EfficientNetV2（简称 V2）与 EfficientNets（Tan & Le，2019a）（简称 V1）。相同训练的性能：表 10 显示了使用相同渐进式学习设置的性能比较。当我们将相同的渐进式学习应用于 EfficientNet 时，其训练速度（从 139 小时减少到 54 小时）和准确性（从 84.7% 提高到 85.0%）都优于原始论文 (Tan & Le, 2019a)。然而，如表 10 所示，我们的 EfficientNetV2 模型仍然大大优于 EfficientNets：EfficientNetV2-M 减少了 17% 的参数和 37% 的 FLOP，同时比 EfficientNet-B7 的训练速度快 4.1 倍，推理速度快 3.1 倍 . 由于我们在这里使用相同的训练设置，因此我们将收益归因于 EfficientNetV2 架构。

在这里插入图片描述
缩小：前面的部分主要关注大规模模型。在这里，我们通过使用与 EfficientNet 类似的复合缩放系数缩小我们的 EfficientNetV2-S 来比较较小的模型。为了便于比较，所有模型都在没有渐进学习的情况下进行训练。与这些小型 EfficientNets (V1) 相比，我们新的 EfficientNetV2 模型通常更快，同时保持可比的参数效率。

在这里插入图片描述

6.2. 不同网络的渐进式学习

我们消除了对不同网络的渐进式学习的性能。表 12 显示了我们的渐进式训练和基线训练之间的性能比较，使用相同的 ResNet 和 EfficientNet 模型。在这里，基线 ResNets 比原始论文（He 等人，2016 年）具有更高的准确度，因为它们是使用我们改进的训练设置（参见第 5 节）使用更多时代和更好的优化器。我们还将ResNets的图像大小从224增加到380，以进一步提高网络容量和准确性。

在这里插入图片描述

如表 12 所示，我们的渐进式学习通常减少了训练时间，同时提高了所有不同网络的准确性。毫不奇怪，当默认图像尺寸非常小时，例如 ResNet50(224) 的尺寸为 224x224 时，训练加速是有限的（1.4 倍加速）；然而，当默认图像尺寸更大且模型更复杂时，我们的方法在准确度和训练效率方面取得了更大的收益：对于 ResNet152(380)，我们的方法将训练速度提高了 2.1 倍，准确度略高；对于 EfficientNet-B4，我们的方法将训练速度提高了 2.2 倍。

6.3.自适应正则化的重要性

我们训练方法的一个关键见解是自适应正则化，它根据图像大小动态调整正则化。本文选择了一种简单的渐进方法，因为它的简单性，但它也是一种可以与其他方法结合的通用方法。表13在两个训练设置上研究了我们的自适应正则化：一个是将图像大小从小到大逐渐增加（Howard，2018），另一个是按照Mix＆Match中的建议为每个批次随机采样一个不同的图像大小（Hoffer等人） ., 2019)。因为 TPU 需要为每个新尺寸重新编译图，所以这里我们每八个 epoch 随机采样一个图像尺寸，而不是每批。与对所有图像尺寸使用相同正则化的渐进或随机调整大小的普通方法相比，我们的自适应正则化将准确度提高了 0.7%。图 6 进一步比较了渐进式方法的训练曲线。我们的自适应正则化在早期训练时期对小图像使用小得多的正则化，使模型能够更快地收敛并获得更好的最终精度

在这里插入图片描述

7 结论

本文介绍了 EfficientNetV2，这是一个新的用于图像识别的更小、更快的神经网络系列。通过训练感知 NAS 和模型缩放进行优化，我们的 EfficientNetV2 显着优于以前的模型，同时在参数方面更快、更高效。为了进一步加快训练速度，我们提出了一种改进的渐进式学习方法，该方法可以在训练过程中共同增加图像大小和正则化。大量实验表明，我们的 EfficientNetV2 在 ImageNet 和 CIFAR/Flowers/Cars 上取得了不错的成绩。与 EfficientNet 和最近的工作相比，我们的 EfficientNetV2 训练速度提高了 11 倍，同时体积缩小了 6.8 倍。