(ResNeXt)Aggregated Residual Transformations for Deep Neural Networks论文阅读笔记

ResNeXt通过聚合一系列相同拓扑的变换,提出了一种新的网络结构,引入了基数(cardinality)作为模型容量的关键因素。在保持计算复杂度不变的情况下,增加基数能够提升图像分类的准确率,效果优于增加深度或宽度。ResNeXt在ImageNet-1K、ImageNet-5K和CIFAR数据集上取得了优于ResNet的结果,证实了基数的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(ResNeXt)Aggregated Residual Transformations for Deep Neural Networks论文阅读笔记2017

Abstract

我们为图像分类提出了一个简单的、高度模块化的网络结构。我们的网络通过重复一种building block来构建,building block聚合了一系列相同拓扑的变换。我们的结构是一个均匀的多分支结构,只需要设置少量的超参数。这种策略引入了一个新的维度,叫做“基数(cardinality)”(变换集的尺寸),作为宽度和深度之外的一个关键因素。在ImageNet-1k数据集上,**我们经验表明,即使在保持复杂度的限制下,提升基数可以提升分类准确率。而且,提升基数比将网络变得更深或更宽,更有效。**我们的模型叫做ResNeXt,是我们参加ILSVRC2016分类比赛的模型基础,我们取得了第二名。我们进一步在ImageNet-5k数据集和COCO检测集上探究,同样取得了比ResNet更好的结果。

1. Introduction

视觉识别的研究正在从“特征工程”过渡到“网络工程”。与传统的人工设计的特征(比如SIFT、HOG)相反,神经网络从大尺度数据学习到的特征只需要在训练时少量的人类参与,并可以迁移应用到许多识别任务中。人们的努力已经转移到设计更好的网络体系结构以学习表示形式。

随着超参数数量的增加(宽度,即channel数,卷积核尺寸,步长等),网络结构设计变得更加困难,尤其是很深层的时候。VGG网络使用了一种简单但是有效的策略:堆叠building blocks。这种策略在ResNet中也有所体现。这种策略减少了超参数的选择,使得深度变成了关键。而且,我们认为这种简化可能降低模型的超参数只适用于特定数据集的风险。VGG和ResNet的鲁棒性很好,无论是在视觉任务还是nlp上。

与VGG不同,Inception模块已经证明,对building block进行精心的设计,可以以较低的复杂度取得很好的准确率。它的重要特点就在于split-transform-merge策略。**在Inception模块中,输入被1 * 1卷积降维,分解成几块,然后每一块使用特定的变换(3 * 3、5 * 5卷积等),最后在聚合到一起。**这种策略想要取得大的、密集网络的表示能力,同时计算复杂度更低。

尽管取得了很高的准确率,Inception模块的实现过程中,参数很多很复杂(卷积核数、尺寸、每个变换的尺寸)。因为有这么多的超参数需要设置,在将它应用到一个新的任务或数据集上,设置就比较困难。

本文中,我们提出了一种简单的结构,使用了VGG的重复策略,同时使用一种简单的方式完成了split-transform-merge策略。我们的模块使用了一些变换,每一个变换都在一个低维度的embedding上进行,最后通过求和来获得聚合输出。我们使用一个简单的方法来实现网络,需要聚合的变换都有着相同的拓扑结构,比如图1右。这种设计使得我们可以在不需要特殊设计情况下,扩展到任意数量的变换。

有趣的是,我们的模型有两种等效形式(图3)。

图3b与Inception-ResNet模块相似,将多个path聚合,但是我们的模型与所有现存的Inception不同,因为我们的所有path的结构是一样的,因此path的数量作为一个参数。更简洁地表述,我们的模块可以当做grouped卷积。

我们实验中发现我们的方法超过了原来的ResNet模块,即使保持计算复杂度和模型尺寸的严格限制下。比如图1右设计中与左边的模块保持相当的FLOP复杂度和参数量。我们需要强调,通过将网络更宽、更深可以很容易提升准确率,但是在保持或降低复杂度的情况下还能提升准确率的方法比较稀少。

我们的方法表明,基数(变换的数量)是一个重要的可测量的量,除了宽度和深度。实验表明提升基数是比提升宽度和高度更有效的提升准确率的方法,尤其是当提升宽度和高度取得负效果的时候。

我们的网络ResNeXt(表明next 维度),超过了ResNet-101/152、ResNet-200、Inception-v3,以及Inception-ResNet-v2,在ImageNet分类数据集上。尤其是。ResNeXt-101可以比ResNet的效果更好,但是只有50%的相对复杂度,且ResNeXt比所有Inception模块的设计更简单。本文后续继续对比了在ImageNet-5K以及COCO目标检测数据集上的效果。

2. Related Work

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值