基于离散图模型的人工视觉简介
本文内容主要来自M. Nikos Paragios和M. Pawan Kumar的课程《Discrete Inference & Learning in Artificial Vision》的第1节“Introduction to artificial vision with discrete graphical models”。
人工视觉
输入阶段:多种多样的传感器,获得图像的形式和质量不同,有的采集深度信息,有的纪录运动信息。这些信息融合起来并不容易。
处理阶段:即使使用非常强大的电脑,也只能达到人脑的很小部分能力。
数学推理:我们并不清楚人类理解环境的方法,因此无法通过学习人类视觉系统重现这一过程。我们通过数学方法解决问题,但通常难以定义合适的模型、目标函数,也难以找到最优解。
人工视觉处理问题的主要方式是逆向建模(inverse modeling)。从观察开始,也就是通过不同传感器获取图像。给定待解决的问题,将问题参数化,如果能估计参数,就能得出视觉感知任务的答案。其难点在于,问题在高维空间,通常没有直接的解析解。
通过心脏CT扫描图,可评估心脏病发作风险。行脏的左心室将携带氧的血药泵到全身。评估心脏病发作风险的方法是测量心动周期(cardiac cycle)心脏收缩和扩张间的差异。也就是比较心室的最大体积和最小体积之差。如果差异在20%,就可能不会发生问题。如果差异变得越来越小,心脏就可能出问题。内科医生希望通过人工视觉自动测量这种差异。通过在心室上选择一些控制点,可以得到心室的模型。目标函数就是优化控制点的位置。
人工视觉面临的四大挑战:
维度问题:在模型的表现力和复杂性间折中;
非线性问题:模型参数和结果之间的非线性;
非凸问题:目标函数在高位非凸空间,存在许多局部最优解,但难以得到最优解;
非模块化问题:老方法难以直接用于新问题,以上问题会重现。
人工视觉包含了计算机视觉、机器视觉和图像处理。
离散模型
G=(X,E),
离散人工视觉(discrete artificial vision)采用图模型。图包含3个元素:
1,顶点(node):待估计的变量,X;
2,邻域系统(neighborhood system):变量或参数间的关系,E;
3,标签(label):离散变量,待估计变量的取值,L。
在离散人工视觉中,每个模型都包含一个图。首先确定顶点和它们之间的连接关系,然后为模型分配数据。通过能量方程的最优化估计变量的值。这种能量通常包含两部分,
第一项称为单一项(singular term),评估所有给定的变量和标签。第二项称为成对项(pairwise term),评估顶点之间的一致性(consistency)。在计算机视觉中,通常采用马尔可夫随机场(MRF,markov random field)进行最优化。
离散人工视觉还采用另一种高阶模型
G=(X,C),
其中C表示超边或团(hyperedege/clique),邻域推广为超团。高阶能量最小化问题表示为
应用实例
在介绍了几本概念后,分三部分展示一些具体应用实例。
低级视觉(low level vision)
低级视觉的主要应用包括:盲图像反卷积(blind image deconvolution)、图像修复(image inpainting)……
图模型元素对应的内容:
变量:像素;
标签:亮度值;
图连接:成对连接。
一、盲图像反卷积
低级视觉是非常活跃的研究领域,去噪(denoising)是其中比较简单的例子。目前已经有很多高效的去噪算法,此处从人工视觉的角度,展示一个更有趣也是更具挑战性的问题。
对象或相机的运动都会导致图像的模糊。盲图像反卷积能消除运动导致的模糊。产生模糊图像,相当于清晰图像被卷积核模糊了,卷积核与相机和对象的运动有关。用数学模型表示,卷积核与噪声劣化了图像
I=x⊗k+n
I表示看到的模糊图像,k表示模糊核,n表示噪声,只有I已知。盲图像反卷积是在给定I时计算x和k。
假设图像就是图,像素对应于顶点。为每个顶点分配一个标签,标签表示重构回图像的值。由于不知道卷积核与噪声模型,问题非常复杂。通过量化降低图像质量,卷积核表现的行为也差不多,但问题复杂度降低了。卷积核与运动相关,千差万别,通常的方法是对卷积核施加限制条件。[1]中的方法同时得到卷积核与无噪声图像。
二、图像补全
图像补全问题模型:
标签L:所有从源区域S来的w×h块;
MRF顶点:和目标区域相交区域的点,也就是将用新值取代的像素;
Θp(xp):块xp和p附近区域的一致性;
Θpq(xp,xq):块xp和xq与它们重叠区域的相似性。
中级视觉(middle level vision)
中级视觉不仅包含了图像修复,还包含了对图片内容推断,其内容包含:目标分割(object segmentation)、光流估计(optical flow estimation)、变形融合(deformable fusion)、图匹配(graph matching)……
图模型元素对应的内容:
变量:控制点;
标签:2D/3D位置;
图连接:成对连接/高阶项。
一、图像分割
图像分割是指从给定图像中提取特定区域。
个体差异、背景复杂、低对比度、噪声等因素使心脏姿态不变性分割[2]极具挑战性。人体解剖结构差异大,大小、形状都可能不同,一种简单的方法是采用高阶几何(higher-order geometry)描述。若通过点集确定表面,任何点对具有不变性。也就是即使移动,它们之间的相对关系也不变。但缩放就不能保持点对的关系。最好的方法是采用高阶几何。
考虑任意三点,姿态不变性是指任何应用到这三点的变换都会保持他们之间角度。对象采用三元组(triplet)建模,任何几何变换都会保留它们之间的角度,这称之为姿态不变(pose-invariant)模型。一旦从数据中学到了这种模型,就可以用它和图像中获取的新信息比较,得到最佳分割图(segmentation map)。这可用概率的方式将几何学信息和图像信息结合。代价函数将增加第三项,称其为超团项,优化点在几何形状中的位置以及点在图像中的位置。统计形状先验(statistical shape prior)的局部约束为P(i,j,k)(α,β),全局形状约束为P(X)=1Z∏c∈CPc(α,β)。
二、配准/光流估计
配准在生物医学图像中极其重要。在将两个部件组合在一起,以及处理组织的形变都需要用到。图像配准可定义为最优化问题
T∗=argminTϕ(I,J∘T),
I和J分别表示目标图像和源图像,变换T定义为
T(x)=x+D(x),
图像度量
ϕ:(I,J)↦R
图或者网格,作为参数空间。经过网格变形,通过图像之间相似性,判断几何形变是否满足要求。这种方案在光流估计和视频分析中也常用到。用图定义该优化问题,顶点对应形变,标签表示位移量,为每个顶点分配形变。采用图模型,可以高效便捷的求解该问题。MRF模型可表示为
三、图匹配
图匹配[3]类似于配准,其目的在于确定两个表面间的对应关系。由于表面之间的形变可能非常大,该问题非常复杂。
高级视觉(high level vision)
高级视觉可用于提取对象的几何关系,比如从3位对象的二维图像中提取深度信息。高级视觉内容包括提取视角不变的2.5维/3维(view-Point invariant 2.5D-3D)信息/ 大规模形状语法解析(large-scale parsing with shape grammars)……
图模型元素对应的内容:
变量:控制点;
标签:2D/3D位移;
图连接:成对连接/高阶项。
一、提取层次信息
直接从单张图像提取3维信息太困难。2.5维信息不要求准确的深度信息,只需要对象之间的前后层次关系。
首先建立对象的二维形状模型,比如上图中的汽车建模,使得它可以在平面内执行移动、旋转、伸缩变换。然后为其分配图像标签(基于对象的信息)。
二、形状语法解析[4]
小结
通过采用训练数据集,图模型效率较高。离散图模型是应对人工视觉四大挑战的理想解决方案。
参考资料
[1]N. Komodakis and N. Paragios, “MRF-based blind image deconvolution,” in Computer Vision–ACCV 2012, Springer, 2013, pp. 361–374.
[2]B. Xiang, C. Wang, J.-F. Deux, A. Rahmouni, and N. Paragios, “3d cardiac segmentation with pose-invariant higher-order mrfs,” in Biomedical Imaging (ISBI), 2012 9th IEEE International Symposium on, 2012, pp. 1425–1428.
[3]Y. Zeng, C. Wang, Y. Wang, X. Gu, D. Samaras, and N. Paragios, “Dense non-rigid surface registration using high-order graph matching,” in Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, 2010, pp. 382–389.
[4]P. Koutsourakis, L. Simon, O. Teboul, G. Tziritas, and N. Paragios, “Single view reconstruction using shape grammars for urban environments,” in Computer Vision, 2009 IEEE 12th International Conference on, 2009, pp. 1795–1802.
- 2015-09-25 » DILinAV(3):最大流与最小割
- 2015-09-22 » DILinAV(2):重参数化与动态规划
- 2015-09-16 » 去雾霾:基于单图的暗通道方法
- 2015-06-06 » 计算机视觉中的多视几何:1. 简介——多视几何之旅
- 2015-06-04 » 计算机视觉中的多视几何:前言
- 2015-06-03 » 计算机视觉中的多视几何:序言(by Olivier Faugeras)
- 2015-05-10 » TLD:跟踪-学习-检测
- 2015-04-18 » 摄像机标定