文章目录
1 摘要
之前的语义分割网络中,输入图像需要限定一个固定的尺寸,而且在经过多层卷积以后,提取的特征信息丢失严重。针对这些语义分割问题,本文提出一种叫“fully convolutional networks”的网络(下称FCN),该网络将传统CNN的全连接层改成全卷积层,支持输入任意尺寸的图片并且输出一定尺寸的图片。在这个网络中定义了一种跳跃结构将网络深层的粗糙的特征图与网络浅层精细的特征图进行融合,在PASCAL VOC数据集、NYUDv2数据集、SIFT Flow数据集中,在当时均表现SOTA(stateof-the-art(最好效果)的缩写)。
2 亮点
2.1 以全卷积层代替全连接层
2.1.1 支持任意不同尺寸图片的输入
在以前的CNN网络结构中,大多数都是在最后面的几层使用全连接层,而一方面全连接层网络的神经元数量是一定的,另一方面必须限定固定分辨率图片的输出,那么就使得输入图片尺寸必须是固定的,因为这样才能保证特征数量的一致。如下图为全连接层。
但是本文将全连接层直接改成n个1x1的卷积核,这样使得无论输入的尺寸为多大,经过n个1x1卷积以后,特征数量就会变成n有关,而与图片的尺寸无关。而如果是全连接层的话,参数数量是与图片的尺寸有关的,因为全连接层需要将一张axbxn的特征图转成为(