基于深度卷积神经网络和全连接CRFs的图像语义分割(deeplabV1)
Abstract
DCNN在图像分类和目标检测方面表现卓越,但DCNN的最后一层的响应并不足以准确定位并进行目标分割。为了克服这一问题,在DCNN的最后一层采用全连接条件随机场。结果在PASCAL VOC-2012图像语义分割数据集上的测试准确率达到71.6%的最先进水平。
1. Introduction
DCNN近几年成为high-level视觉研究的主流,例如图像分类,目标检测和细粒度分类等等。DCNN之所以能胜任这些任务部分原因在于其对局部图像变换的内置不变性,而这反而成为了low-level视觉任务的阻碍,例如姿态估计和语义分割,在这些任务中我们希望的是精准的定位而不是空间信息的提取。
DCNN应用于图像分割任务的两大问题:
图像下采样signal downsampling:DCNN每层中的max-pooling(带步长的downsampling)导致图像分辨率下降。针对这一问题,本文采用‘atrous’ (with holes) 算法进行密集计算。
空间不变性spatial invariance :空间不变性对于分类器获得对象为中心的决策时是必要的,但却限制了DCNN的空间精度,本文采用全连接条件随机场解决。
deeplab三个优势:1.快速——‘atrous’算法;2.准确——PASCAL图像分割任务比此前最高准确率高7.2%;3.简单——模型由两个相当成熟的模型构成(DCNNs和CRFs)。
2. Related Work
目前最广泛的DCNN语义分割方法是两段式方法,即自底向上的图像分割和基于DCNN的区域分类,这使得系统前端分割会产生潜在错误。我们的模型和目前最出色的模型最大的区别在于deeplab结合了像素级别(pixel-level) 的CRFs和基于DCNNs的‘unary terms’。
3. CNN For Dense Image Labeling
重新利用和微调在Imagenet预训练后的VGG-16使其变成一个高效的密集特征提取器为我们的密集语义图像分割系统。
3.1 Efficient Dense Sliding Window Feature Extraction With The Hole Algorithm(使用hole算法的高效密集滑动窗口特征提取)
step1. 将VGG-16的全连接层转化成卷积层;step2.原网络输出稀疏计算分数(步长32像素),而目标是输出密集计算分数(步长8像素)。跳过原网络最后两层max-pooling下采样并且通过引入0增大这两层后的卷积滤波器的尺寸(最后三个卷积层2x,第一个全连接层4x)。这种方法的好处在于它允许以任意目标的下采样率计算密集CNN特征图并不引入近似。
文章采用VGG-16在ImageNet上的预训练模型微调,并将VGG-16最后一层1000类的分类器替换为21类。loss function是CNN输出图中每一空间位置cross-entropy的总和。反向传播修正权重使用标准的SGD方法。
由于作者的网络产生的类别分数图比较平滑,允许他们直接使用简单的双线性插值算法增加分辨率。而之前的FCN未使用多孔卷积算法,产生的分数图很粗糙,这使得他们必须去训练学习上采样层,大大增加了运算复杂度和训练时间。
3.2 Controling The Receptive Filed Size And Accelerating Dense Computation With Convolution Nets(控制感受野并加速卷积网络密集计算)
在将VGG-16网络转换成全卷积网络之后,第一个全连接层有4096个7*7大小的卷积核,这成了密集得分图计算的一大障碍。我们采用下采样的方法将第一个FC层变到4*4或3*3大小,这降低了网络的感受野并减少了FC第一层运算时间的2-3倍。4.Detailed Boundary Recovery: Fully-connected Conditional Random Fields and Multi-scale Prediction(细节边缘恢复:全连接条件随机场和多尺度预测)
4.1 Deep Convolutional Networks And The Localization Challenge(深度卷积神经网络及其定位挑战)
DCNN输出的分数图能够可靠地预测目标的存在及其大致位置,但是无法精准的描绘目标轮廓。图像分类任务和定位任务有着天然的制衡,越深的网络使用了多次max-pooling使得分类任务获得了很大的成功,然而随之增加的不变性和大感受野使得目标定位面临更多挑战。
文章融合了DCNNs的识别能力和全连接CRFs的细粒度定位能力,结果在非常细微的水平上实现了目标边缘恢复和精准的语义分割,其准确度超过了已有方法。
4.2 Fully-Connected Conditional Random Fields For Accurate Localization(全连接CRFs准确定位)
传统的CRFs用于平滑分割图的噪声,本质上short-range CRFs用于清除在本地手工设计的特性上构建的弱分类器的错误预测,然而文章使用的DCNN结构输出得分图已经很平滑,在这种情况下,使用short-range CRFs反而有害,因为作者的目标是恢复细节而不是使其平滑,因而作者将全连接CRFs整合到系统中克服short-range CRFs的缺陷。
4.3 Multi-Sacle Prediction(多尺度预测)
文章还探索了一种多尺度预测方案来增加边界定位准确度,具体通过对输入图像和前四个max-pooling输出层都添加一个两层MLP(多层感知机),其产生的特征图被连接到主网络最后一层特征图上。在后续的实验部分发现,这种方法的确能够提高定位准确性,但效果不如全连接CRFs。