理解ResNeXt

本文介绍了用于图像分类的ResNeXt网络架构,它采用重复构建块聚合相同拓扑转换,引入“基数”新维度。在ImageNet-1K等数据集上,增加基数可提高分类准确性。还讲解了ResNeXt的block结构及等价结构,如32x4d结构和不同等价型。

ResNeXt:https://arxiv.org/pdf/1611.05431.pdf

Abstract

We present a simple, highly modularized network architecture for image classification. Our network is constructed by repeating a building block that aggregates a set of transformations with the same topology. Our simple design results in a homogeneous, multi-branch architecture that has only a few hyper-parameters to set. This strategy exposes a new dimension, which we call “cardinality” (the size of the set of transformations), as an essential factor in addition to the dimensions of depth and width. On the ImageNet-1K dataset, we empirically show that even under the restricted condition of maintaining complexity, increasing cardinality is able to improve classification accuracy. Moreover, increasing cardinality is more effective than going deeper or wider when we increase the capacity. Our models, named ResNeXt, are the foundations of our entry to the ILSVRC 2016 classification task in which we secured 2nd place.We further investigate ResNeXt on an ImageNet-5K set and the COCO detection set, also showing better results than its ResNet counterpart.

摘要

我们提出了一种简单,高度模块化的网络架构,用于图像分类。我们的网络是通过重复构建块来构建的,该构建块聚合了具有相同拓扑的一组转换。我们的简单设计产生了一个同构的多分支架构,只需要设置一些超参数。这种策略暴露了一个新的维度,我们将其称为“基数”(转换集的大小),作为深度和宽度维度之外的一个重要因素。在ImageNet-1K数据集上,我们凭经验表明,即使在保持复杂性的限制条件下,增加基数也能够提高分类准确性。此外,当我们增加容量时,增加基数比更深或更宽更有效。我们的模型名为ResNeXt,是我们进入ILSVRC 2016分类任务的基础,我们获得了第二名。我们在ImageNet-5K集和COCO检测集上进一步研究ResNeXt,也显示出比其ResNet对应物更好的结果。

Introduction

In this paper, we present a simple architecture which adopts VGG/ResNets’ strategy of repeating layers, while exploiting the split-transform-merge strategy in an easy, extensible way. A module in our network performs a set of transformations, each on a low-dimensional embedding, whose outputs are aggregated by summation. We pursuit a simple realization of this idea — the transformations to be aggregated are all of the same topology (e.g.,Fig. 1 (right)). This design allows us to extend to any large number of transformations without specialized designs.

简介

在本文中,我们提出了一种简单的体系结构,它采用VGG / ResNets的重复层策略,同时以简单,可扩展的方式利用分裂变换合并策略。 我们网络中的模块执行一组转换,每个转换都在低维嵌入上,其输出通过求和来聚合。 我们追求这个想法的简单实现 - 要聚合的转换都是相同的拓扑(例如,图1(右))。 这种设计允许我们在没有专门设计的情况下扩展到任何大量的转换。
在这里插入图片描述

理解ResNeXt的block

上图中的两个block具有相同的复杂度。左边就是ResNet的一个block,右边是基数为32的ResNeXt一个block。
ResNeXt中的block结构是一个单元重复32次然后再相加的结果。每个单元是一个bottleneck结构:先把输入feature map 通过1x1卷积降维到4通道的特征图,然后经过3x3卷积,输出还是4通道(该部分的降维力度比较大,直接从256d到了4d,而ResNet的一个block是从256d降维到了64d),然后再通过1x1卷积进行升维。这个结构叫做32x4d的结构。其中32是ResNeXt引入的新的自由度,称为cardinality。ResNeXt的名字也源于此,X指的就是 neXt dimension。4d代表的是通过1x1卷积之后直接降维到了4通道的特征图。

理解ResNeXt的block的等价结构

在这里插入图片描述
a是ResNeXt module的原始形式(Fig. 1 (right))
b是GoogLeNet形式的等价型(如下图的b)

在这里插入图片描述
c是group convolution的等价型。

这样的等价型的性能和效果是一样的。

作者:GL3_24
来源:优快云
著作权归作者所有。转载请联系作者获得授权。

### ResNeXt 深度学习模型架构特点 ResNeXt 是一种改进版的残差网络 (ResNet),旨在提高图像识别任务中的性能。其核心特点是引入了聚合残差变换的概念,这使得模型能够在不增加计算复杂度的前提下提升表达能力。 #### 聚合残差变换 ResNeXt 中的关键创新在于使用了一种称为“基数”(cardinality)的新维度来扩展网络宽度。不同于传统的仅通过加深或加宽网络的方法,ResNeXt 提出了并行分支的设计思路,每个分支执行相同的操作但参数独立[^1]。这种设计允许更灵活地调整网络容量,并且实验证明可以带来显著的效果增益。 #### 卷积操作细节 具体来说,在每一个残差单元内部,ResNeXt 使用一组平行的小型卷积核来进行特征提取工作。这些小型卷积核共享相同的输入通道数和输出通道数,但在不同路径上具有不同的权重矩阵。这样的结构不仅保持了原始残差连接的优势——即缓解梯度消失问题和支持非常深的学习过程;同时也增强了模型对于局部模式的理解力[^3]。 ```python def resnext_block(input_tensor, filters, cardinality=32): # 定义基础滤波器数量 base_filters = filters // cardinality # 创建多个并行的卷积路径 paths = [] for i in range(cardinality): path = Conv2D(base_filters, kernel_size=(3, 3), padding='same')(input_tensor) paths.append(path) # 合并所有路径的结果 concat = Concatenate()(paths) return Activation('relu')(concat) ``` ### 应用场景实例 ResNeXt 已经被广泛应用于各种计算机视觉领域,特别是在那些需要高精度分类的任务中表现出色。例如,在一项研究中提到,为了应对城市生活垃圾自动分拣的需求,研究人员开发了一个名为 OM-ResNeXt50 的改进版本用于垃圾分类识别。通过对现有数据集不足之处的研究,团队建立了专门针对中国国情下的垃圾图片数据库 FCGC-TrashNet,并在此基础上进行了针对性优化。最终实验表明,相比于标准配置下运行的基础 ResNeXt50 模型,OM-ResNeXt50 将整体准确率提高了大约五个百分点[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值