立体视觉:原理、算法与应用
1. 立体视觉概述
立体视觉是指通过融合两只眼睛记录的图像,并利用它们之间的差异(即视差)来获得强烈的深度感。在计算机领域,可靠的立体视觉感知程序在许多方面都具有重要价值,例如视觉机器人导航、制图、航空侦察和近景摄影测量等。它还在物体识别的图像分割以及计算机图形应用的三维场景模型构建等任务中备受关注。
立体视觉主要涉及两个过程:一是融合两只(或多只)眼睛观察到的特征,二是重建这些特征的三维原像。在理想情况下,匹配点的原像可以通过穿过这些点和相关瞳孔中心(或针孔)的光线的交点来找到。但实际中,每张图像通常包含数百万个像素和数万个图像特征,因此需要设计有效的方法来建立正确的对应关系,避免深度测量误差。
2. 双目相机几何与极线约束
2.1 极线几何
给定一对立体图像,乍一看,第一张(或左)图像中的任何像素都可能与第二张(或右)图像中的任何像素匹配。但实际上,匹配的像素对被限制在两张图片的对应极线上。这一约束在立体融合过程中起着关键作用,它将寻找图像对应关系的搜索范围缩小到一维搜索。
考虑由两个光学中心分别为 (O) 和 (O’) 的相机观察到的点 (P) 的图像 (p) 和 (p’)。这五个点都位于由两条相交光线 (OP) 和 (O’P) 定义的极平面内。点 (p’) 位于该平面与第二个相机的视网膜 (\Pi’) 的交线 (l’) 上,这条线就是与点 (p) 相关的极线,它经过连接光学中心 (O) 和 (O’) 的基线与 (\Pi’) 的交点 (e’)。同样,点 (p) 位于与点 (p’) 相关的极线 (l) 上,这条线经过基线与平面 (\Pi) 的交点 (e)。点 (e) 和 (e’)
超级会员免费看
订阅专栏 解锁全文
1424

被折叠的 条评论
为什么被折叠?



