文章目录
(DenseNet)Densely Connected Convolutional Networks论文阅读笔记2018
Abstract
最近的工作表明,对于CNN,如果在接近输入或输出的那些卷积层之间包含一些更短的连接,网络可以持续的变深,且训练更有效率,取得更好的准确率。本文中,我们在此基础上提出了一种密集卷积网络(DenseNet),**它以前馈方式将每一层连接到其他每一层上。**对于传统的有L层的卷积网络,==有着L个连接,即一个接一个的,那么我们的网络就有着L(L+1)/2
个连接,即每层与后面的所有层都有连接。对于每一层,前面所有层的特征图都作为输入,它的特征图又作为后面所有层的输入。==DenseNet有下面几个优点:
- 减轻了梯度消失的问题
- 增强了特征的传播,使得特征可以反复使用
- 减少了参数量
我们在四个数据集上评估了我们的结构(CIFAR-10/100、SVHM、ImageNet),DenseNet在大部分任务中都对SOTA取得了提升,且计算量更少。
1. Introduction
CNN已经成为视觉目标识别任务中的统治性方法。尽管20多年前就有了,近年来随着计算机硬件和网络结构进步,才使得CNN成为了主流。
随着CNN越来越深,一个新的研究问题出现了:因为输入或梯度的信息要穿过好多层,因此在它传到最后或最初(梯度回传)的时候,它可能会消失。许多最近的论文在试图解决相关问题。ResNet和Highway Network通过identity mapping来在层之间传递信号。FractalNets重复地组合几个有着不同卷积数的平行层来获得一个比较深的深度,同时保持网络中有许多的short paths。尽管这些方法在网络的拓扑结构和训练流程上不同,它们都有一个特点:对前面的层引入一个short path接到后面的层。
本文中,我们提出了一种结构,将这种想法变成简单的连接:确保网络的各层中可以传递最多的信息,我们直接连接了所有层(匹配特征图尺寸)。为了保持前馈方式,每个层都获得了前面所有层的输入并且将自己的特征图输出到后面所有层中。图1展示了网络的结构:
关键的一点是,与ResNet不同,**我们不会在特征传到层之前就通过求和将特征进行组合;相反,我们通过级联的方式将这些输入进行组合。**因此,第l层有l个输入,它生成的特征图又会传到后面所有层中,因此对于L层的网络,一共有L(L+1)/2
个连接。因为这种密集连接,所以我们把网络叫做DenseNet。
**这种密集连接有着一个违背直觉的特点,它需要更少的参数,因为不需要重新学习之前的特征图。**传统的前馈结构可以看做具有状态的算法,一层一层的逐层进行传递。每一层读取前一层的状态然后传到下一层,这个过程改变了状态,同时也会传递需要保存的信息。ResNet将前一层信息保存,然后通过identity变换来相加。最近的一些ResNet变体研究表明,有许多层的贡献很小,实际上可以随机dropout。这就使得ResNet的状态与RNN相近,但是ResNet的参数更多,因为每一层都有自己的权值。我们提出的DenseNet结构明确区分添加到网络的信息和保留的信息。DenseNet层非常的窄(可能每层只有12filters),对整体的“collective knowledge”只增加很小的特征图,且保持特征图不变,最后的分类器基于的是整个网络的所有特征图做出决策。
除了更少的参数量,DenseNet的另一个优点在于提升了信息和提出在网络之间的传播,使得训练更加容易。每层有与loss函数梯度直接相连的access,和与各层输入相连的通道。这对训练深层网络很有效。而且,我们同样观察到密集连接有正则化的效果,这会减小在小训练集上任务的过拟合。
2. Related Work
对网络结构的探索一直是神经网络研究的一部分。现代网络中层数的增加加深了网络结构之间的差别,因此就激励研究人员探索不同的网络结构以及对旧的想法的重新审视。
类似我们的DenseNet的一种级联结构在1980s就已经出现。它们主要关注一层一层训练多层的FC感知机。之后,全连接的级联网络提出,尽管在小的数据集上有效,这种网络只有几百的参数。目前,利用shortcut来利用CNN中多等级的特征已经证明有效。
Highway Network几乎是第一个提出了有效训练超过100层的CNN方法的网络。使用了带有门单元的bypassing paths&#x