深度学习经典网络：ResNet及其变体（ResNeXt）_resnet残差网络及变体详解-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42615068/article/details/97273068

ResNeXt通过引入分组卷积和堆叠的残差单元，在不显著增加模型复杂度的情况下，提高了深度学习网络的准确性。这种结构借鉴了VGG的堆叠思想和Inception的split-transform-merge策略，通过增加通道的cardinality而不是宽度，实现了性能的提升。实验表明，增加cardinality比增加深度或宽度更能有效地提升模型的准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ResNeXt：https://arxiv.org/pdf/1611.05431.pdf
keras代码：https://github.com/keras-team/keras-applications/blob/master/keras_applications/resnext.py

pytorch 代码:https://github.com/prlz77/ResNeXt.pytorch

1 简介

深度学习的其他网络为了提高准确率，都是采用增加网络深度或者网络宽度（其实指卷积中滤波器的个数）的方式，但这会增加模型的复杂度和参数量。为此作者在原有ResNet 的基础上，提出一种新的残差单元，在保持现有网络的参数量的前提下提高了模型的准确率。该网络结构名为ResNeXt。作者主要借鉴了VGG和Inception网络的思想，VGG在设计时采用堆叠的方式，同一模块中的像filter_size, filter_channel等超参数都保持一致; Inception网络采用split-transform-merge 策略，首先利用1×1卷积将输入映射到嵌入空间，之后再利用像3×3、5×5等卷积对嵌入空间的特征进行转换，最后将不同分支的特征利用concatenation进行融合。但是Inception网络每个分支的超参数较多，需要进行特别的设计。因此，作者借鉴了VGG堆叠的思想和Inception网络split-transform-merge 的结构，在增加准确率的同时基本不改变或降低模型的复杂度。结构如图1所示。
在这里插入图片描述

图 1 左图为基本残差单元，右图为ResNeXt中的残差单元
提出的残差单元与Inception的结构类似，但是该结构每个分支的超参数都是相同的，相当于进行了一个横向的堆叠，这样可以避免繁重的超参数调节工作。其中作者称分支的数量（图中为32）为 cardinality，文中解释为 the size of the set of transformations, 作者也在实验中证明了增加cardinality比增加网络的深度和宽度更加有效。

2 提出的残差单元

思路:
对于一个简单的神经元，其计算过程可以用如下公式表示，输入 $x$ 是一个 $D$ 维的向量。如图1所示, 可以看出神经元的计算过程就是一个split-transform-merge的策略，它首先将输入split到一个低纬度的嵌入式空间，然后利用简单的缩放: $w_{i}x_{i}$ 对低纬度的嵌入式特征进行transform，最后利用 $\sum_{i=1}^{D}$ 将嵌入特征进行整合。作者借鉴该模板，提出的block可以用公式2进行表示，式中 $\mathcal{T}_{i}$ 可以是一个任意的函数， $C$ 为cardinality， $C$ 可以不等于 $D$ ,可以为任意数字，同时作者在设计时保证了 $\mathcal{T}_{i}$ 是相同的， $\mathcal{T}_{i}$ 采用了如图1右面所示的bottleneck-shaped的结构，公式2可以改写为公式3。与Inception-ResNet不同的是这里在每个分支采用了相似的结构。
$\sum_{i=1}^{D} w_{i} x_{i} \text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }(1)$