一、上下文信息
通常在实际的世界中,由于目标不可能单独的存在,它一定会于周围其他的对象会这是环境有或多或少的关系,这就是通常所说的上下文信息。上下文信息通常被理解为:察觉并能应用能够影响场景和图像中的对象的一些信息或者是全部信息。来源于对人类视觉系统的模拟,人类的大脑具有出色的识别性能,在目标及背景复杂的情况下人类视觉系统依然可以快速识别和分类大量的目标。对于目标成像的光照、姿态、纹理、形变和遮挡等因素均具有非常好的适应性。
在计算机视觉领域中,上下文信息常指通过捕捉不同的对象之间的相互作用信息,对象与场景之间的相互作用信息作为条件来对新目标进行识别、处理。上下文信息并不是直接从目标的外观上直接得到,而是从邻域内的数据,目标的标注,目标的空间位置或者数据统计信息中得到。
在计算机视觉领域,很多学者采用 Biederman的语义关系划分来完成目标识别的方法研究。这种划分根据上下文信息的来源可以划分三类:语义上下文(可能性),空间上下文(位置),尺度上下文(尺寸)。多种类型的上下文信息在理论上已经被证明在计算机视觉、图像处理方面中扮演了非常重要的角色,能提高识别的准确度和精确度。
二、空洞卷积与DeepLab算法
作为语义分割领域的必读论文,DeepLab系列的贡献主要包括以下几点:
- 使用空洞卷积解决下采样问题
- 使用条件随机场CRF作为后处理手段,精细化分割图
- 使用多尺度空洞卷积进行上下文信息捕捉
空洞卷积
由于卷积神经网络中池化和步长卷积等下采样层的存在,图像的输出尺寸往往小于实际尺寸,如果去掉池化层和步长,在减少下采样次数的同时,为了维持感受野,大卷积核会因为增大特征图带来参数量的增加。
空洞卷积的诞生就是为了解决这一问题,在不增大感受野的前提下,有效减少了参数量
CRF条件随机场
在图像分类任务中,研究人员发现,模型直接输出的分割图较为粗糙,尤其在物体边界处不能产生很好的分割结果,为此在DeepLab v1&v2版本中采用了条件随机场(CRF)作为后处理手段,结合原图颜色信息和神经网络预测的类别得到精细化分割结果。
CRF的本质是一种概率模型,DeepLab 使用 CRF 对分割结果进行建模,用能量函数用来表示分割结
果优劣,通过最小化能量函数获得更好的分割结果。
能量函数:
E
(
x
)
=
∑
i
θ
i
(
x
i
)
+
∑
i
j
θ
i
j
(
x
i
,
x
j
)
E(x)=\sum_i \theta_i(x_i)+\sum_{ij} \theta_{ij}(x_i,x_j)
E(x)=∑iθi(xi)+∑ijθij(xi,xj)
其中,
x
i
、
x
j
x_i、x_j
xi、xj为特定像素的预测结果(向量化后只有1维坐标),
x
x
x则是全部像素的预测结果,
θ
i
(
x
i
)
\theta_i(x_i)
θi(xi)为单个预测对能量函数的贡献,
θ
i
,
j
(
x
i
,
x
j
)
\theta_{i,j}(x_i,x_j)
θi,j(xi,xj)为一对预测对能量函数的贡献