FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation (CVPR2019)
1.摘要
目前的语义分割通常采用主干网中的扩展卷积来提取高分辨的特征图,这带来了计算复杂度和内存占用。
为了替代耗时和消耗内存的膨胀卷积,我们提出了一种新的联合上采样模块——联合金字塔上采样(joint Pyramid upsampling, JPU),将提取高分辨率特征映射的任务转化为联合上采样问题。
实验表明,JPU优于其他上采样模块,可以插入现有的多种上采样方法,降低计算复杂度,提高性能。
2.背景介绍
1.语义分割是将图像的每一个像素分配一个语义标签。
2.最初的FCN通过通过stride卷积和/或空间池化层对输入图像进行逐级采样,最终得到低分辨率的feature map,虽然最终的feature map编码了丰富的语义信息,但是精细的图像结构信息丢失了,导致了对对象边界的不准确预测。如图1a所示,原始FCN通常对输入图像进行5次降采样,最终feature map的空间分辨率降低了32倍。
3.后来,采用原始FCN作为编码器捕获高层语义信息,并设计了一个解码器,逐步恢复空间信息。如图1b所示,我们将这种方法称为EncoderDecoder,解码器产生的最终预测是高分辨率的。
4.接着,DeepLab[5]从原始的FCN上删除了最后两个下采样操作,并引入扩张(atrou