Aggregated Residual Transformations for Deep Neural Networks（论文翻译）

最新推荐文章于 2025-05-16 14:27:38 发布

MJ5513

最新推荐文章于 2025-05-16 14:27:38 发布

阅读量2.1k

点赞数

文章标签：深度学习 cnn 人工智能

本文链接：https://blog.youkuaiyun.com/MJ17709005513/article/details/123574453

版权

摘要

我们提出了一种用于图像分类的简单、高度模块化的网络架构。我们的网络是通过重复一个构建块来构建的，该构建块聚合了一组具有相同拓扑的转换。我们简单的设计产生了一个同质的多分支架构，只需设置几个超参数。这个策略暴露了一个新的维度，我们称之为“基数”（转换集的大小），作为深度和宽度维度之外的一个重要因素。在 ImageNet-1K 数据集上，我们凭经验表明，即使在保持复杂性的限制条件下，增加基数也能够提高分类精度。此外，当我们增加容量时，增加基数比更深或更宽更有效。我们的模型名为 ResNeXt，是我们进入 ILSVRC 2016 分类任务的基础，在该任务中我们获得了第二名。我们在 ImageNet-5K 集和 COCO 检测集上进一步研究 ResNeXt，也显示出比 ResNet 更好的结果。代码和模型可在线公开获得。

1.引言

视觉识别的研究正在经历从“特征工程”到“网络工程”的转变[25,24,44,34,36,38,14]。与传统的手工设计特征（例如，SIFT [29] 和 HOG [5]）相比，神经网络从大规模数据 [33] 中学习到的特征在训练过程中需要最少的人工参与，并且可以转移到各种识别任务中[7、10、28]。尽管如此，人类的努力已经转移到为学习表示设计更好的网络架构上。

随着超参数（宽度2、过滤器大小、步幅等）数量的增加，设计架构变得越来越困难，尤其是在有很多层的情况下。 VGG-nets [36] 展示了一种简单而有效的构建非常深网络的策略：堆叠相同形状的块。该策略由 ResNets [14] 继承，它堆叠相同拓扑的模块。这个简单的规则减少了超参数的自由选择，深度被暴露为神经网络中的一个基本维度。此外，我们认为该规则的简单性可以降低将超参数过度适应特定数据集的风险。 VGGnets 和 ResNets 的鲁棒性已通过各种视觉识别任务 [7, 10, 9, 28, 31, 14] 以及涉及语音 [42, 30] 和语言 [4, 41, 20] 的非视觉任务得到证明。

与 VGG 网络不同，Inception 模型系列 [38、17、39、37] 已经证明，精心设计的拓扑能够以较低的理论复杂度实现令人信服的精度。 Inception 模型随着时间的推移而发展 [38, 39]，但一个重要的共同属性是拆分-转换-合并（split-transform-merge）策略。在 Inception 模块中，输入被分成几个低维嵌入（通过 1×1 卷积），由一组专门的过滤器（3×3、5×5 等）进行转换，并通过连接合并。可以看出，该架构的解空间是在高维嵌入上运行的单个大层（例如，5×5）的解空间的严格子空间。预计 Inception 模块的拆分-变换-合并行为将接近大型和密集层的表示能力，但计算复杂度要低得多。

尽管准确度很高，但 Inception 模型的实现伴随着一系列复杂的因素——过滤器的数量和尺寸针对每个单独的转换进行定制，并且模块是逐级定制的。尽管这些组件的仔细组合产生了出色的神经网络配方，但通常不清楚如何使 Inception 架构适应新的数据集/任务，尤其是当需要设计许多因素和超参数时。

在本文中，我们提出了一个简单的架构，它采用了 VGG/ResNets 的重复层策略，同时以一种简单、可扩展的方式利用了 split-transform-merge 策略。我们网络中的一个模块执行一组转换，每个转换都在一个低维嵌入上，其输出通过求和聚合。我们追求这个想法的简单实现——要聚合的变换都是相同的拓扑结构（例如，图 1（右））。这种设计允许我们在没有专门设计的情况下扩展到任何大量的转换。

图 1. 左：ResNet [14] 块。右：基数 = 32 的 ResNeXt 块，复杂度大致相同。一层显示为（#in channels, filter size, #out channels）。

有趣的是，在这种简化的情况下，我们表明我们的模型还有另外两种等价形式（图 3）。图 3(b) 中的重新表述与 InceptionResNet 模块 [37] 相似，因为它连接了多个路径；但是我们的模块与所有现有的 Inception 模块的不同之处在于我们所有的路径共享相同的拓扑，因此可以轻松地将路径的数量隔离为要研究的因素。在更简洁的重新表述中，我们的模块可以通过 Krizhevsky 等人的分组卷积 [24]（图 3（c））重新塑造，然而，它已被开发为一种工程折衷方案。

图 3. ResNeXt 的等效构建块。 (a)：聚合残差变换，同图 1 右。 (b)：等效于 (a) 的块，实现为早期连接。 (c)：等效于 (a,b) 的块，实现为分组卷积 [24]。粗体文本的符号突出了重新制定的变化。一层表示为（#输入通道，过滤器大小，#输出通道）。

我们凭经验证明，即使在保持计算复杂性和模型大小的限制条件下，我们的聚合转换也优于原始 ResNet 模块——例如，图 1（右）旨在保持图 1 的 FLOPs 复杂性和参数数量（剩下）。我们强调，虽然通过增加容量（更深或更宽）来提高准确性相对容易，但在文献中很少使用在保持（或降低）复杂性的同时提高准确性的方法。

我们的方法表明，除了宽度和深度的维度之外，基数（变换集的大小）是一个具体的、可测量的维度，它具有核心重要性。实验表明，增加基数是获得准确性的一种更有效的方法，而不是更深或更宽，特别是当深度和宽度开始为现有模型带来递减收益时。

我们的神经网络名为 ResNeXt（建议下一个维度），在 ImageNet 分类数据集上优于 ResNet-101/152 [14]、ResNet200 [15]、Inception-v3 [39] 和 Inception-ResNet-v2 [37]。特别是，101 层的 ResNeXt 能够达到比 ResNet-200 [15] 更好的准确度，但复杂度只有 50%。此外，ResNeXt 的设计比所有 Inception 模型都简单得多。ResNeXt 是我们提交给 ILSV

最低0.47元/天解锁文章