《Fully Convolutional Networks for Semantic Segmentation》
1.1 语义分割
语义分割是计算机视觉中的关键任务之一。现实中,越来越多的应用场景需要从影像中推理出相关的知识或语义即由具体到抽象的过程。作为计算机视觉的核心问题,语义分割对于场景理解的重要性日渐突出
1.2深度学习代表问题
不匹配关系:SPP ASPP PSPNet GCN DFN
不寻常类:RedNet RDFNet
研究成果
- 将分类网络改变成全卷积网络,具体包括全连接层转化为卷积层以及通过反卷积进行上采样
- 使用迁移学习的方法进行微调
- 使用跳跃结构使得语义信息可以和表征信息相结合,产生准确而精细的分割
- FCN证明了端到端、像素到像素训练方式下的卷积神经网络超过了现有语义分割方向最先进的技术
- FCN成为了PASCAL VOC最出色的分割方法
端到端训练
End-to-End
在计算机视觉领域,端到端可以简单地理解为,输入是原始图像,输出是预测图像,中间的具体过程依赖于算法本身的学习能力。通过网络内部结构,对原始图像进行降维和特征提取,并在后续过程中将尺寸较小的特征图逐渐恢复成与原图尺寸相同的预测图
特征提取的好坏将直接影响最后的预测结果,端到端网络的最主要特点就说根据设计好的算法自己学习特征,而不需要人为干预
分割术语
pixel-wise:像素级别
每张图片都是由一个个pixel组成的,pixel是像素的基本单位
image-wise:图像级别
patch-wise:块级别
介于像素级别和图像级别之间,每个patch都是由好多个pixel组成的
patchwise training:
是指对每一个感兴趣的像素,以它为中心取一个patch小块,然后输入网络,输出则为该像素的标签
全局信息和局部信息
局部信息:
提取位置:浅层网络中提取局部信息
特点:物体的几何信息比较丰富对应的感受野较小
目的:有助于分割尺寸较小的目标有利于提高分割的精确程度
全局信息:
提取位置:深层网络中提取全局信息
特点:物体的空间信息比较丰富,对应的感受野较大
目的:有助于分割尺寸较大的目标,有利于提高分割的精确程度
感受域(receptive field)
在卷积神经网络中,决定某一层输出结果中一个元素所对应的输入层的区域大小,感受域。通常来说,大感受域的效果要比小感受域的效果更好。由公式可见stride越大,感受域越大。但是过大的stride会使feature map保留的信息变少。因此,在减少stride的情况下,如何增大感受域或使其保持不变,成为了分割中的一大问题。
R
F
l
+
1
=
R
F
l
+
(
k
e
r
n
e
l
_
s
i
z
e
−
1
)
∗
s
t
r
i
d
e
RF_{l+1}=RF_{l}+(kernel\_size-1)*stride
RFl+1=RFl+(kernel_size−1)∗stride
通常认为,无论是多少层cnn输出的feature map中的结果,感受域都是只所对应的输入的原图中的大小,不管是第一层第二层第三层的feature map,我都指的是原图的大小,而不是上一层输入的大小。
平移不变性(translation invariance)
**宏观结果:**图像中的目标无论被移动到图片中的哪个位置,分类结果都应该是相同的
**具体过程:**卷积≈平移不变 图像中的目标有移动时,得到的特征图也会产生相同的移动