ABSTRCAT
如今用于目标识别的CNNs大都以相同的原则构建:卷积层与最大池化层交替,接着是少量全连接层。本文重新评估了用CNN从小图像中识别物体的技术水平,产生了对上述结构中不同成分的必要性的质疑。我们发现,在几个基本图像识别数据集上,最大池化层可以简单地被具有更大步长的卷积层代替。根据这种猜想,我们提出了一种新的架构,其仅由卷积层组成,并且在几个目标识别数据集上(CIFAR-10, CIFAR-100, ImageNet)产生了具有竞争性的或是当前最好的表现。为了分析网络,我们引入了一种新的“反卷积方法”变体,用于可视化CNN学习的特征,它可以比现有方法应用于更广泛的网络结构。
1 INTRODUCTION AND RELATED WORK
现有CNNs在各层之间使用分段线性激活函数。在使用dropout训练期间,网络参数通常被参数化为大规模、规则化。过去几年来,大量的研究集中于提高这一基本流程的性能。有两个主要的方向:1,A plethora of extensions被提出用于改进遵循这种规则的网络,这些工作中最显著的方向是使用更复杂的激活函数。2,最值得注意的是,2014年ImageNet挑战中的顶级条目偏离了标准设计原则,通过在池化层之间引入多个卷积(Simonyan&Zisserman,2014),或者在每层中构建模块来执行不同规模的卷积与池化。
由于所有这些扩展和不同的体系结构都带有自己的参数和训练过程,因此问题出现了,为了在当前目标识别数据集上实现最佳性能,CNNs的那些成分是真正必须的。我们首先通过研究我们可以设想的最简单的体系结构来回答这个问题:一个完全由卷积层组成的均匀网络,偶尔通过使用2步长降低维度。令人惊讶的是,我们发现这个基本架构 - 使用vanilla stochastic gradient descent with momentum进行训练就可以达到最先进的性能,无需复杂的激活函数,任何响应标准化或最大池化。我们通过对CIFAR-10进行ablation study并将我们的模型与CIFAR-10,CIFAR-100和ILSVRC-2012 ImageNet数据集的现有最佳技术进行比较,从而凭经验研究从更标准的体系结构过渡到我们的简化CNN的效果。由于在我们的体系结构中降维是通过逐步卷积而不是最大化汇集进行的,因此它自然也适用于研究有关神经网络可逆性的问题,为了朝这个方向迈出第一步,我们使用类似于Zeiler&Fergus(2014)的去卷积方法来研究我们网络的特性。
2 MODEL DESCRIPTION - THE ALL CONVOLUTIONAL NETWORK
实验中我们所用模型与标准的CNNs在几个关键方面有所不同。第一,我们用步长为2的标准卷积层取代了实践中用于目标识别的CNNs都会出现的池化层。为了理解为什么这个过程能够起作用,我们需要回顾用于定义CNN中的卷积和合并操作的标准公式。令ff由一个CNN的某些层产生的feature map。它可以描述为一个W*H *N的三维数组,其中W和H是图像的宽和高,N是通道数量,为防止ff是一个卷积层的输出,N是本层滤波器的数量。
待续