1. DeepLab v2
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
1.1 出处:2017 TPAMI
1.2 问题:
- 降低的特征分辨率
- 多尺度物体的存在
- 由于DCNN不变性,导致降低的定位准确率
1.3 主要贡献(Solution):
-
着重强调使用上采样conv或者空洞卷积,而不是使用反卷积deconvolution
-
提出了一种结构ASPP,能够实现多尺度分割物体
-
改进目标边界定位。结合DCNN和概率图模型。DCNN中的最大池化和下采样能够实现不变性,但以定位准确率为代价。于是,作者对DCNN的最后一层使用全连接CRF
全连接的CRF的作用是:捕获目标边缘
1.4 启发
- ASPP是个经典的结构
- CRF广泛应用在语义分割任务中,能很好的捕获边缘细节
- 整体思想:DCNN + Atrous convlution + CRF
- PASCAL VOC 2012 79.7%mIOU
- CRF还是不懂,需要继续看
2. DeepLab v3
Rethinking Atrous Convolution for Semantic Image Segmentation
2.1 出处: 2017 CVPR
2.2 问题:
主要还是解决分辨率不断降低和多尺度物体的问题。
连续的池化操作还有卷积stride使得特征分辨率逐渐降低。这种局部图像转换的不变性会阻碍密集预测任务(需要详细的空间信息)。因此作者提倡使用空洞卷积解决这个问题。
2.3 解决方案
相当于是针对已有问题,提出了新的解决方案:
采用不同atrous rate的空洞卷积,通过级联或并行的方式,捕获多尺度context。
2.4 与v2的比较
-
v3不再需要DenseCRF后处理过程
-
受SPP的启发,采用四个并行的不同atrous rates的atrous convolutions对feature map进行处理
-
每个atrous convilution后都加了BN层
-
引入了全局特征信息。
动机:当空洞率特别大时,3x3的空洞卷积会退化成1x1的,只有中心的filter起作用。
为了克服这个问题,并将全局信息融合进模型中,采用image-level 特征。采用全局平均池化,然后使用256层1x1的卷积核,再进行双线性上采样。
2.5 启发
-
论文中提及的:空洞卷积对于语义分割任务很重要(可以看看最新论文,也是都用空洞卷积吗)
空洞卷积能够通过移除最后几层的下采样操作,并上采样对应的卷积核(插入孔洞),来提取更密集的特征图。
-
有些方法,如segnet, FCN, UNet采用反卷积来恢复图像的分辨率,但作者提倡使用空洞卷积。
2.6 细节介绍
2.6.1 四种多尺度特征提取器
作者介绍了4种提取多尺度物体特征的结构:
-
图像金字塔
对不同尺度的图像提取特征,最后进行特征融合
-
Encoder-Decoder
encoder用来提取多尺度图像特征,decoder用来还原spatial resolution
-
空洞卷积
额外的module在原始网络的基础上级联,来捕获long range information
-
SPP
使用并行的空间金字塔池化操作
2.6.2 架构
作者提出的模型由 不同atrous rate的空洞卷积 和 bn层组成。
ASPP模块由以下部分组成:
(a) ASPP
-
1X1的卷积
-
3个3X3的卷积,空洞率分别为6,12,18
以上卷积的通道数均为256,后边跟着BN层
(b) Image Pooling