本文记录了博主阅读论文《Rethinking Atrous Convolution for Semantic Image Segmentation》(DeepLab v3)的笔记,代码。更新于2019.04.22。
Abstract
本文回顾了用于调节感受野并控制深度神经网络在分割任务上特征图分辨率的空洞卷积(atrous convolution或dilated convolution)。本文中提出的DeepLabv3明显提升了之前版本的DeepLab,且无需DenseCRF后处理。达到了PASCAL VOC2012语义分割下的state-of-art结果。
Introduction
用深度神经网络(Deep Convolutional Neural Networks,DCNNs)解决语义分割问题有两个主要挑战。首先是由于连续池化(pooling)或跨步(striding)导致的特征图分辨率下降,虽然这些操作使得DCNNs学习更抽象的特征表达,但是这种对于局部图像变换的不变性也影响了稠密估计任务(需要细节化的空间信息)。为了克服这个困难,他们提出了空洞卷积,该方法在图像分割领域的有效性也已经被证明。
第二个困难来源于不同尺寸的目标。下图是总结的4类用于解决这个问题的方法:
Related Work
全局信息在语义分割中正确分类像素的问题上的有效性已经被证明了(33, 76, 73 ,48 ,27, 89)。这里讨论四种类型的全卷积网络(FCNs)。
Image pyramid: 相同模型,通常权重共享,应用于不同尺度的输入上。这种类型模型的主要缺点是,由于GPU内存的限制,其对于更大或更深的DCNNs(比如类似32,91,86)不能很好地缩放。
Encoder-decoder: 这类模型包括两部分。第一部分是编码器,此时特征图的空间尺寸逐步减小,使得深层编码器输出更容易捕获远程信息(long range information);第二部分是解码器,在这一部分,目标细节和空间维度逐步恢复。这类模型在分割和识别任务中都有应用。
Context module: 这类模型串联排布,从而编码远程信息。
Spatial pyramid pooling: 这个模型应用空间金字塔池化(spatial pyramid pooling,