摘要——我们提出了一种新颖实用的深度完全卷积神经网络体系结构,用于语义像素分割,称为SegNet。该核心可训练分段引擎包括编码器网络,相应的解码器网络,后面是像素分类层。编码器网络的体系结构在拓扑上与VGG16网络中的13个卷积层相同[1]。解码器网络的作用是将低分辨率编码器特征映射映射到用于像素分类的全输入分辨率特征映射。 SegNet的新颖之处在于解码器对其较低分辨率输入特征图进行上采样的方式。具体地,解码器使用在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样。这消除了学习上采样的需要。上采样的地图是稀疏的,然后与可训练的滤波器卷积以产生密集的特征地图。我们将我们提出的架构与广泛采用的FCN [2]以及众所周知的DeepLab-LargeFOV [3],DeconvNet [4]架构进行比较。这种比较揭示了实现良好分割性能所涉及的内存与准确度之间的权衡。
推理期间的计算时间。 与其他竞争架构相比,它的可训练参数数量也明显更小,并且可以使用随机梯度下降进行端到端训练。 我们还在道路场景和SUN RGB-D室内场景分割任务上执行了SegNet和其他架构的受控基准。 这些定量评估表明,与其他架构相比,SegNet提供了良好的性能,具有竞争性的推理时间和最有效的内存推理。 我们还在http://mi.eng.cam.ac.uk/projects/segnet/上提供了SegNet的Caffe实现和网络演示。