利用特征质量寻找更优的宽基线立体匹配解
斯蒂芬·努斯克 和 杰伊·帕特拉瓦利
摘要
许多涉及重定位或三维场景重建的机器人应用,都需要找到从不同视角拍摄的相机图像之间的几何关系。计算宽基线图像对之间的对极几何关系十分困难,因为在特征对应阶段通常会产生远多于内点的外点。大量的外点导致朴素方法需要计算大量随机解,才能以足够高的概率找到正确的解。此外,大量外点还可能导致错误的解看起来像正确的解。我们提出一种名为 UNIQSAC 的新方法,通过为特征分配权重,引导随机解趋向高质量特征,从而有助于找到优质解。我们还提出一种新的几何解评估方法,更有可能找出正确解。我们在多种不同的户外环境中使用单目和立体图像对进行了实验,结果表明,我们的方法比现有的鲁棒估计方法能提供更优的估计结果。
1 引言
计算宽基线相机对之间的相对几何关系对于许多机器人问题(如SLAM系统中的回环检测或三维重建)是一项重要任务。在具有挑战性的现实场景中,该任务可能十分困难,主要是因为在包含大量错误对应点(外点)的集合中,难以确定哪些点对应关系是正确的(内点)。
标准方法,RANSAC [7],通过测试多个几何假设来对图像对之间的对极几何关系进行鲁棒估计。RANSAC 及其改进变体[2, 3, 6, 13, 16],在正确估计方面表现出色。当正确匹配点的百分比较小且错误匹配点的百分比较大时,几何关系的估计变得困难。然而,当内点和外点的百分比进一步不利于求解时,即使是这些鲁棒方法也难以找到正确的几何关系。为此,我们提出了一种新的特征质量度量,即特征在图像所有其他特征中的唯一性。我们利用该度量对对应点的采样进行加权,以帮助找到良好的解,并且还提出了一种新的解评估方法,能够更好地区分正确解与错误解。图1展示了我们算法运行的一个示例。
我们的采样方法与现有的加权采样策略不同,我们首先对每个特征进行鲁棒量化,然后计算该特征在图像所有其他特征中的唯一性,而不是仅仅计算与最近邻的特征相关性得分,或与第二最近邻的相关性得分比率。
我们还提出使用特征质量来评估几何解。传统方法仅通过计算通过极线距离阈值的支撑对应点数量来评估解。当存在大量外点时,许多错误对应点可能通过内点测试,导致错误的解被误判为好的解。我们的方法更有可能找到正确的解,因为我们对低质量特征进行了降权处理,而传统方法则将所有特征视为同等重要。
我们首先在一些具有挑战性的室外单目图像对上测试了我们的方法,每组对应点中内点的比例都非常小。实验结果通过人工真实值进行评估,并与其他鲁棒估计算法进行了比较。结果表明,与常用的方法相比,我们的方法能够找到更精确的解。
其次,我们将我们的唯一性加权方法应用于宽基线立体视觉里程计中,以实现更快且更精确的估计。最后,本文首先介绍方法论,随后在连续的章节中分别描述单目和立体图像数据的结果。
2 相关工作
本文概述了宽基线几何估计领域的最新技术。该任务最终需要在图像对之间关联某种类型的视觉信息。在文献中,用于宽基线的方法有多种不同类别的信息:基于区域的方法[12],基于边缘/线条的方法[9],但迄今为止最主流的方法是使用点特征(如SIFT [10])的方法。基于外观的方法,例如[8]学习预测可匹配的描述符,能够实现更快的几何计算,并具有较高的匹配成功率。基于点的方法之所以流行,原因有二:首先,它们具备能够在场景中重复找到相同图像关键点的算法,即使观察姿态发生变化也能保持稳定;其次,它们可以对关键点周围区域形成描述,这些描述对视角姿态变化具有合理的鲁棒性。
然而,尽管该过程相对稳健,但在宽基线图像对之间,外点对应点的数量通常多于内点。当外点占所有对应点比例超过50%时,最常见且最成功的 方法是RANSAC[7] 及其变体。RANSAC的过程是从随机选择的最少数量的点对应关系中生成一个几何关系的假设解,并通过统计一致的对应点数量来评估该假设。该过程通过不同的采样重复进行,直到找到一个较好的解为止。
为了提高准确性,在找到当前最优模型后,局部优化RANSAC(LoRANSAC)[3]会对估计的模型假设进行局部优化。为了实现更快的收敛,[15]利用图像中的空间顺序信息排除不正确特征匹配的计算。
有一些方法通过在采样步骤中对每个对应点进行加权,调整其被选中的可能性来改进RANSAC [2, 6, 13, 16]。SCRAMSAC [13]通过基于邻近对应点的空间一致性对对应点进行排序来实现这一点。USAC [2]将[2, 3, 11]整合到一个完整的流程中。
[16]中的研究通过引导采样替代随机采样,并基于图像相关性得分计算每个对应点的加权值。PROSAC [2]利用对应点质量度量,根据关键点的相关性得分加快RANSAC的处理速度。EVSAC [4],通过建模匹配得分计算置信度值,从而加速假设生成。BEEM [6]提出另一种加权对应点的方法,该方法使用描述符空间中最近邻与第二最近邻特征距离比值确定的相关性质量得分进行加权。
这些现有方法大多根据两个特征之间的相关性得分或相关性得分与次优对应点的比率来计算权重。这些现有的加权度量仅考虑一个或两个对应点。这将导致半显著特征的权重较低,且该权重会与非常不显著特征的权重一样低。而我们的方法不同,它计算一个特征相对于图像中所有其他特征的唯一性分数,能够为仅与少数其他特征相似的半显著特征提供适当的权重。因此,我们的唯一性加权对场景中半显著特征的情况更具鲁棒性,即那些仅与少量其他特征相似的特征。
此外,这些方法中的惯例是使用通过了对极线距离阈值的共识集中的对应点数量。然而,当存在大量外点时,许多错误对应点可能错误地通过内点测试,导致劣质解看起来像是优质解。在我们的工作中,我们基于共识集中的特征质量来评估解,这种方法更有可能找到正确的解,因为我们对低质量特征进行了降权处理,而传统方法则将所有特征视为同等重要。
3 基于特征唯一性的采样:UNIQSAC
我们首先详细说明我们的方法,即在RANSAC过程中对对应子集的采样进行加权。我们重申了在困难的图像对中,为实现及时收敛,有必要对对应点的采样进行加权,这一点在此前的研究中已有证明:[2, 6, 16]并提出了一种确定权重的替代策略。第一步是将特征描述符量化为不同标签,类似于词袋方法[14],我们统计每种特征在图像中出现的次数,从而估计该特征的唯一性。
词袋方法需要一个与当前场景相关的大规模先验数据库,并且需要大量预处理来对特征数据库进行聚类。我们提出一种无需学习且高效的替代性特征量化方法。
我们的方法是首先获取一个N维的特征描述符,并从中随机采样M维的子特征,共采样K次。然后,将这K个子特征量化为K个整数。为每个特征生成一组标识符的原因在于,对高维的N维特征进行量化是困难且容易出错的,因为如果有任何一个维度受到干扰(来自多种潜在的观测干扰,如光照、传感器噪声、视角姿态变化、非平面性、部分遮挡等),所得到的整数标识符就会出错。因此,通过为M和K选择适当的值,所得到的K个整数各自仍可合理地用于识别特征;尽管由于观测干扰,仍有可能出现多个K整数标识符错误的情况,但很可能每个特征仍有足够数量的有效标识符。
过程如下。设fi为特征f的第i个维度的值,该值是介于0和1之间的归一化值。然后设r(k,m,N)为一个返回1到N之间随机哈希函数的函数,对于特定的k和m值,该函数将返回相同的随机哈希函数(即对每个待量化特征,选取相同的维度进行采样)。给定一个特征f,我们多次随机生成子特征s,形成子特征集合S,其中sj为第j个子特征。然后使用量化函数q(v,p,z)将子特征量化为整数标识符d,该函数接收一个介于0和1之间的特征值v、一个指数值p以及每个维度的量化数量z;
$$ q(v, p, z) = \lfloor v^p \cdot z \rfloor $$
通过组合子特征,我们为每个特征形成一个整数标识符集合D。其中Dl是第l个整数标识符。此过程定义为QUANTIZE()函数,如算法1中所述。因此,通过为每个特征描述符f创建K个整数标识符,我们可以统计这些标识符在图像中出现的次数C(d),计算最常出现的特征标识符CMAX,然后对所有K个标识符取平均值,以计算该类型特征在该图像其他特征中的唯一性得分Uf。这详细说明了我们计算一组特征描述符的唯一性得分的方法。
(a) 点对应关系
(b) 左图像唯一性
(c) 右图像唯一性
(d) 内点
图1 加权对极几何估计示例:校园场景。特征唯一性着色从 唯一 到 重复 依次为:红色、橙色、绿色、浅蓝色、蓝色。低质量的重复植被和大量重复的建筑物特征被降低权重
(a) 机场
(b) 建筑1
(c) 2号建筑
图2 唯一性计算的可视化。在一组具有挑战性的户外图像对中检测到的特征,其计算出的唯一性以颜色表示。着色范围从唯一 到重复 ,依次为:红色、橙色、绿色、浅蓝色、蓝色。机场场景明显存在大量由本技术降低权重的低质量地面特征。建筑场景则包含许多来自砖结构和植被的重复低质量特征。而大多数高质量特征已被正确识别并赋予更高的权重
4 使用特征唯一性评估假设
上一节描述了几何估计的采样阶段,RANSAC框架的下一阶段是评估生成的模型假设。传统上,几乎所有方法都使用共识集[7](内点集)c的基数作为度量来判断模型的质量,这种方法在区分好的假设与坏的假设方面存在局限性。
常用方法是检验一个特征对应i是否在共识中,从而判断其是否为内点inlier:如果其距离 ε,到由第n个模型计算出的极线的距离小于阈值 τ,则满足条件:
$$ c_n = { c(i) \in C \mid \varepsilon_i < \tau } $$
然后,在给定N次RANSAC迭代后,最终估计模型ˆm就是具有最大共识集的模型,如下所示:
$$ \hat{m} = \arg\max_n (|c_n|) $$
其中cn是第n次RANSAC迭代得到的共识集。然而,许多通过内点测试的对应点实际上是外点。因此,由于共识集中存在大量错误对应点,可能导致一些较差的几何假设看起来较好。
由于仅使用共识集的基数作为评估指标存在局限性,我们开发了一种新的度量方法来评估RANSAC假设,该方法衡量的是共识集中特征的质量。我们的方法在评估过程中降低了低质量特征的权重,而传统方法则将所有特征视为同等重要,因此我们的方法更不容易找到错误的解。我们建议采用上一节所述的特征加权方法作为质量度量,并使用内点特征权重之和作为假设评估的度量指标。因此,我们对最优模型的表述变为:
$$ \hat{m} = \arg\max_n \left( \sum_{\forall f_i \in c_n} w(f_i) \right) $$
现在我们绘制两个图表,将我们的新度量与传统内点计数进行比较,如图3所示。第一个图表图3a显示了共识集(内点)的大小与实际真实内点(已验证内点)之间的相关性,数据记录自一百万次RANSAC迭代(在实践中计算一百万次迭代可能耗时过长,但此处使用以清晰展示与真实内点数量的关系),所用宽基线图像对见图2a。类似地,图2b中的第二个图表显示了内点权重之和与已验证内点之间的相关性。
从图3b中可以明显看出,与传统内点计数相比,新度量方法在与真实内点的相关性方面表现得更好。尽管我们在图3a中看到了一个上升趋势,即内点数量与已验证内点数量之间的关系,
图3 一百万次迭代的假设评估和准确度得分。左:在较高的内点数量时,RANSAC准确性较低,且已验证内点较少。右:特征唯一性提供了内点权重之和与已验证内点之间的线性相关性
但该分布存在显著的方差,其中一些具有大量总体内点的假设却只有少量已验证内点。这说明,我们的新度量方法在错误选择错误假设方面的可能性要小得多。
5 单目宽基线几何关系估计
在本节中,我们详细描述了在针对宽基线单目图像的RANSAC类型几何关系估计中,如何实现对采样对应点的特征唯一性加权。对应点集C是图像对中两个特征集F1和F2之间的匹配特征集合。从该对应点集中,我们使用一个加权函数选取整个对应点集的一个最小子集s,该加权函数用于计算特征f被采样的可能性,即w(f);
$$ w(f) = U_f^2 $$
最小样本集用于估计我们的假设模型,对我们而言,估计对极几何即为基础矩阵。该样本集s的基数为8,因为我们使用的是八点算法[7]。当从C中为s选择8个对应点时,我们采用基于两个特征f1(i)和f2(i)的权重的蒙特卡洛采样策略,以选择特定对应点i:
$$ p(C(i)) = w(f_1(i)) \cdot w(f_2(i)) $$
6 实验结果:单目图像数据
我们收集了多种在不同户外环境中具有挑战性的宽基线图像对,以评估我们的方法。本文展示了从四个不同场景中获取的结果,这些场景此前已在图1和图2中展示。我们将我们的UNIQSAC方法与三种标准的对极几何估计方法进行比较:RANSAC[7]、LoRANSAC[2]和BEEM[6]。所有这些方法都通过采样少量的稀疏特征点对应关系,拟合对极几何模型,评估模型,存储当前最优结果并进行迭代。作为输入,我们使用SIFT特征[10]进行关键点检测,并为每个关键点提取SIFT特征描述符。
特征量化的参数,如公式1中所给出的,设置如下:子特征维度 M为6,子特征数量 K为6,特征维度 N为128,指数 p为1,量化数 z为2。这些参数设置用于粗略量化,使其适合区分常见特征与更独特的特征。通过量化并根据算法1计算每个特征的唯一性,得到如图2所示的唯一性可视化结果。
一旦计算出唯一性,下一步就是寻找点对应关系。我们使用KD树计算图像对之间的对应点[1](最多访问250个叶节点)。在每一对图像中,内点数量较少,大约在10%到15%之间。我们通过手动指定图像对之间的一组真实对应关系(通常约为30个)来评估算法的性能。我们使用标准八点算法计算一个真实值基础矩阵,并使用该基础矩阵验证所找到的内点中有多少也符合真实值基础矩阵(我们将这些称为已验证内点)。我们还从估计的基础矩阵计算一条极线,并计算真实对应关系到该极线的平均距离(我们称之为极线误差)。
为了保持公平比较,我们将所有算法的迭代次数固定为相同的数值:50,000。对于LoRANSAC,我们使用5,000次迭代的内循环,其中每次内循环总共贡献50,000次迭代。我们在每对图像上对每种算法各运行10次,每次运行50,000次迭代,计算均值并列于表1中。
我们以粗体突出显示在已验证内点数量和真实极线误差方面表现最佳的算法。总体而言,我们的uniqueness加权采样方法优于所有其他算法,因为它在极线距离上具有更高的准确性,并产生更多的已验证内点。
我们可以看到,在某些测试中,某些算法产生的内点更多,但正如本文中一直讨论的那样,内点的数量并不一定意味着更优的解(因为错误对应点也可能被计为内点)。重要的统计量是已验证内点的数量和极线距离。
| 图像对 | 统计量 | RANSAC | LoRANSAC | BEEM | UNIQSAC |
|---|---|---|---|---|---|
| 机场 | 对应点 | 1237 | 1237 | 1237 | 1237 |
| 机场 | 内点 | 82.5 | 98.0 | 102.4 | 96.66 |
| 机场 | 已验证内点 | 22.3 | 29.9 | 36.4 | 43.2 |
| 机场 | 极线误差(像素) | 20.0 | 11.4 | 4.7 | 4.1 |
| 建筑1 | 对应点 | 1204 | 1204 | 1204 | 1204 |
| 建筑1 | 内点 | 187.7 | 214.5 | 216.9 | 217.0 |
| 建筑1 | 已验证内点 | 88.9 | 113.1 | 124.5 | 125.8 |
| 建筑1 | 极线误差(像素) | 7.9 | 5.4 | 5.2 | 3.6 |
| 2号建筑 | 对应点 | 1192 | 1192 | 1192 | 1192 |
| 2号建筑 | 内点 | 146.6 | 181.3 | 177.7 | 182.5 |
| 2号建筑 | 已验证内点 | 87.8 | 116.0 | 115.3 | 125.0 |
| 2号建筑 | 极线误差(像素) | 4.1 | 2.8 | 2.3 | 1.7 |
| 校园 | 对应点 | 1451 | 1451 | 1451 | 1451 |
| 校园 | 内点 | 143.7 | 157.2 | 162.8 | 175.7 |
| 校园 | 已验证内点 | 103.3 | 121.6 | 130.7 | 128.7 |
| 校园 | 极线误差(像素) | 14.9 | 5.9 | 8.0 | 4.5 |
7 宽基线立体相机姿态估计
在本节中,我们将单目方法扩展到求解立体图像对集合之间的几何关系。上一节中展示的结果充分表明,应用我们的唯一性采样与共识(UNIQSAC)技术来计算宽基线立体相机的六自由度位姿是具有重要意义的。
我们的立体图像数据集包含在葡萄园、高粱田和苹果园中通过宽基线立体设置拍摄的植物图像。由于植物叶片中的重复特征和背景杂乱,采样唯一特征对于在可行的迭代次数内准确计算运动估计至关重要。为了计算完整的六自由度运动,我们实现了一个包含三个阶段的立体视觉里程计流程:特征提取与匹配、唯一性分数计算和几何估计。
7.1 特征提取与匹配
在移动立体相机设置下,我们可以在任意时刻获得四幅图像:两个连续帧的左右图像。为了计算相机变换,我们需要在这四幅图像之间建立特征匹配。
首先从前一左图像开始,寻找其在当前左图像中的对应点。在建立了前一帧与当前左图像之间的对应关系后,我们将这些匹配特征作为模板,沿着极线扫描线在前一右图像和当前右图像中搜索对应的特征。模板图像匹配采用归一化互相关评分。在特征匹配过程中,使用SIFT特征检测关键点,随后提取SIFT描述子,并利用K近邻技术进行匹配。
7.2 唯一性得分计算
计算唯一性分数之前,特征会进行量化,保持与前面部分所述相同的参数。除了唯一性分数Uscore之外,我们还考虑了匹配特征的深度一致性和距离比,形成一种新的混合分数 Tscore。该混合分数用于根据公式7为所有匹配特征分配权重。深度一致性 Dscore通过计算前一左-当前左和当前左-前左的深度值差异,然后对差异值进行归一化来计算。匹配特征的距离比 Rscore由[6]中描述的过程确定。
$$ T_{score} = U_{score} + D_{score} + R_{score} $$
7.3 几何估计
一旦我们获得了所有匹配特征的像素坐标,就可以应用三角测量来获取两组三维坐标。相机运动(r,t)可以通过使用高斯-牛顿优化最小化重投影误差之和来计算。我们的稀疏特征匹配运动估计方案类似于盖格等人提出的方法[5]。
我们不随机选取3组对应点,而是用我们的唯一性采样技术替代RANSAC,以提高选择高质量特征的概率。在测试模型假设时,我们使用公式4中的度量来获得最终的内点集。
8 实验结果:立体图像数据
为了测试在葡萄和高粱图像数据集上的性能,我们同时考虑时间效率和准确性进行评估。由于算法一个循环的运行时间可能相对变化,衡量时间效率的一个好方法是检查算法收敛所需的迭代次数。
在我们的实验设置中,机器人配备了一个立体相机,以平均速度0.45 米/秒移动,以每秒5帧的速度捕获距离3英尺处种植墙的图像。图4展示了我们针对葡萄数据集(图4a)和高粱图像数据集(图4b)的完整立体视觉里程计流程。可以看出,原始图像包含大量会产生低质量特征的区域——地面、天空和植物叶片。因此,许多特征对应关系是错误的。计算混合唯一性得分可降低从地面和植物叶片提取的大部分特征的权重。这些对应点中仅有极小部分被正确识别为内点(内点率<9%)。苹果园数据集的类似结果如图5所示。
我们的算法UNIQSAC与三种标准方法RANSAC、LoRANSAC和BEEM进行了对比测试。评估指标为验证内点得分(总验证内点数),并在1000次和10000次迭代下进行计算。为了确保鲁棒性和可重复性,分数在1000次中取平均。图6中的结果表明,与RANSAC相比,我们提出的技术在准确-时间效率上提升了25%(葡萄)和80%(高粱)。
(a) 葡萄数据集
(b) 高粱数据集
图4 宽基线立体几何估计。立体图像对上的宽基线几何估计示例。左列插图来自葡萄数据集,右列来自高粱数据集。第一行:从立体相机捕获的原始图像对。第二行:使用K近邻的对应匹配,在前一个左图像和当前左图像之间。第三行:特征唯一性计算以及前左图像和当前左图像的彩色热力图。第四行:通过我们的唯一性采样技术获得的内点绘制结果。
图5 苹果园数据集。第一行-从左到右:原始图像对,使用K近邻的对应匹配。第二行-从左到右:作为彩色热图的唯一性计算,使用UNIQSAC绘制的内点,在前一个左图像和当前左图像之间
图6 时间效率-准确度得分。上排各图从左到右为葡萄数据集获得的结果。左:1000次迭代的比较。中:RANSAC与UNIQSAC的比较,基于验证内点得分的均值标准差。右:10000次迭代的比较。类似地,下排各图从左到右为高粱数据集获得的结果
9 结论
本文提出了一种基于特征质量的加权采样新方法UNIQSAC,用于计算宽基线图像对之间的对极几何关系。同时提出了一种基于共识集特征质量来评估模型假设的新度量,其性能优于仅统计共识集基数的方法。这两种方法在多种不同的户外环境中得到了验证,在这些环境中,低质量重复特征被正确地降低权重,而更独特的结构特征被正确地提高权重,从而获得了更精确的解。
为了评估我们方法的性能,一组单目和立体图像对被进行了真值标注,并将结果与RANSAC、LoRANSAC和BEEM等标准鲁棒估计方法进行了比较。在单目设置中,我们的方法在除一种情况外的所有情况下都产生了最准确的估计。这些结果在立体设置中进一步得到验证,我们在非常低的内点率(<9%)下仍获得了最准确且时间效率最高的估计。利用特征质量来引导随机采样,为未来的工作开辟了多种可能性。特别是,我们有兴趣将我们的方法扩展到稠密三维点云的快速而精确配准中。
371

被折叠的 条评论
为什么被折叠?



