摘要
视觉任务中多尺寸的特征表示十分重要,作为backbone的CNN对尺寸表征能力越强,性能提升越大。目前大多数特征提取的方法是分层方式来表示多尺度特征。分层方式即要么对每一层使用多个尺度的卷积核进行特征提取,要么就是对每一层提取特征进行融合。
本文提出的Res2Net在原有的残差单元结构中又增加了小的残差块,通过在单一残差块中对残差连接进行分级,进而可以达到细粒度层级的多尺度表征,同时增加了每一层的感受野的大小。Res2Net可以嵌入到不同的特征提取网络中,如ResNet,ResNeXt等等。
介绍
在自然场景中,视觉模式经常表现多尺寸特征。(1)一个图像可以会出现大小不同的物体,如沙发和杯子。(2)一个对象的基本上下文信息可能占据比对象本身大的区域。比如,依赖于桌子的上下文信息,进而判断桌子上的黑色斑点是杯子还是笔筒。(3)感知来自不同尺度的信息对于理解诸如细粒度分类和语义段等任务的部分和对象是至关重要的。所以为视觉任务设计良好的多尺度刺激特征是至关重要的。
在视觉任务中获取多尺度表征需要特征提取器使用大范围的感受野来描述不同尺度下的对象/上下文等。CNN通过一堆卷积操作符自然地学习由粗到精的多尺度特征,CNN有多尺度特征提取的能力。
AlexNet按顺序堆叠卷积并得到比传统方法更显著的效果。然而,由于网络深度和卷积核大小的限制,AlexNet只有很小的感受野。
VGGNet增加了网络