斯坦福的2011年NIPS论文《Efficient Inference in Fully Connected CRFs with
Gaussian Edge Potentials》,阐述了如何使用高效的全连接条件随机场模型进行图像语义分割任务的应用。
一、CRF和denseCRF
基本的CRF模型是由一阶势函数和相邻元素构成的势函数所组成的图模型,很显然,在图像任务上,basic CRF模型一个劣势就是它只考虑了相邻的邻域元素,没有对整体进行考虑。
一个进一步的想法就是,将每一个像素点,对其他所有像素点都构成一个edge,达到稠密的全连接模型,此时面临的一个问题就是图像像素数目非常大,会有上万个点和数十亿的边,其计算复杂度导致模型几乎无法实施。
在Fully connected CRF中,随机场的吉布斯分布可以写作:P(X∣I)=1Z(I)exp(−∑cϕc(Xc∣I))P(X|I)= \frac{1}{Z(I)}exp(-\sum_{c} \phi_c(X_c|I) )P(X∣I)=Z(I)1exp(−∑cϕc(Xc∣I)),相应的吉布斯能量可以写作:E(x)=∑iϕu(xi)+∑i<jϕp(xi,xj)E(x)=\sum_{i}\phi_u(x_i)+\sum_{i<j}\phi_p(x_i,x_j)E(x)=i∑ϕu(xi)+i<j∑ϕp(xi,xj)
ϕp(xi,xj)=μ(xi,xj)∑m=1Kw(m)k(m)(fi,fj)\phi_p(x_i,x_j)=\mu(x_i,x_j)\sum_{m=1}^{K}w^{(m)}k^{(m)}(f_i,f_j)ϕp(xi,xj)=μ(xi,xj)m=1∑Kw(m)k(m)(fi,fj)
其中k(m)k^{(m)}k(m)为高斯核,写作:k(fi,fj)=w(1)exp(−∣pi−pj∣22θα2+w(2)exp(−∣pi−pj2∣2θγ2))k(f_i,f_j)=w^{(1)}exp(-\frac{|p_i-p_j|^2}{2\theta^2_\alpha}+w^{(2)}exp(-\frac{|p_i-p_j^2|}{2\theta_\gamma^2}))k(fi,fj)=w(1)exp(−2θα2∣pi−pj∣2+w(2)exp(−2θγ2∣pi−pj2∣))
该模型的一元势能包含了图像的形状、纹理、位置和颜色,二元势能使用了对比度敏感的的双核势能,CRF的二元势函数一般是描述像素点与像素点之间的关系,鼓励相似像素分配相同的标签,而相差较大的像素分配不同标签,而这个“距离”的定义与颜色值和实际相对距离有关,这样CRF能够使图像尽量在边界处分割。全连接CRF模型的不同就在于其二元势函数描述的是每一个像素与其他所有像素的关系,使用该模型在图像中的所有像素对上建立点对势能从而实现极大地细化和分割。
二、高效算法
平均近似场
基于KL散度,用QQQ拟合分布PPP,作者给出如下公式:


此时的计算复杂度主要集中在Message Passing,其复杂度为O(N2)O(N^2)O(N2)
高维滤波器卷积
将上面式子中的i != j转换成完全求和再减去一项,凑成离散卷积的形式,则有:

通过上下采样实现高效算法:

此时的计算复杂度为O(N)O(N)O(N)
三、参数学习
利用分段训练来学习模型参数。首先,使用Textonboost训练一元势能;然后,通过EM和高维滤波学习外观核参数,使用网格搜索内核参数;使用L-BFGS学习兼容性参数,使模型的对数似然最大化;使用平均场近似估计划分函数Z的梯度。

本文详细介绍了如何使用全连接条件随机场(denseCRF)进行图像语义分割,探讨了基本CRF的局限性和denseCRF的优势。在denseCRF模型中,每个像素点与其他所有像素点都有连接,通过高斯核函数处理像素间关系,实现精细化分割。文章还讨论了高效算法,如平均近似场和高维滤波器卷积,以及参数学习方法,包括分段训练和L-BFGS优化。
3163

被折叠的 条评论
为什么被折叠?



