视觉拓扑建图方法综述

部署运行你感兴趣的模型镜像

第3章 文献综述

摘要

本章节回顾了近年来关于基于视觉的拓扑建图与定位的主要方法。我们根据用于视觉描述图像的方法对不同方案进行分类,因为生成地图的质量在很大程度上依赖于这一方面。我们区分了三个基本类别:基于全局描述符的方法、基于局部特征的方法以及基于词袋模型(BoW)方案的方法。我们也考虑了这些方法的不同组合。

3.1 概述

在本章节中,我们回顾了过去十五年中关于基于视觉的拓扑建图与定位的主要方法。在相关文献中,可以找到一些类似的综述,但它们更多地侧重于导航[1]和视觉SLAM[2]。在本次综述中,我们将主要关注处理拓扑地图的方法,尽管我们也会考虑某些以环境拓扑结构为基础的混合解决方案。另一个可能相关的问题是位姿图SLAM。需要注意的是,诸如奥尔森[3],树图[4],平方根SAM[5], iSAM[6],TORO[7],稀疏位姿调整[8], iSAM2[9]或g2o[10]等算法可以将拓扑地图作为输入。然而,位姿图SLAM中的节点通常表示智能体所到达的位姿,而非环境中具有显著特征的地点。此外,位姿图SLAM中的位置是车辆的度量位置,而不是对世界外观离散模型中的定性估计。由于这些原因,我们将此类建图算法排除在本章节范围之外。

回环检测是拓扑方案中的一个重要组成部分。当使用视觉作为信息源时,该问题通常通过直接比较图像来解决,从而形成外观‐based方法。在这方面,一个相关的研究领域是场景分类或视觉地点分类(VPC)[11]。该领域的首要目标是以粗略的方式确定某个地点的类别。例如,给定当前图像,目标是判断当前位置是一个厨房。一些作者利用这些框架构建拓扑地图,形成已知地点的图结构

地方。然而,VPC可以被视为一个不同的研究方向,这些工作也超出了本章节的范围。

为了使用视觉进行建图与定位任务,需要对获取的图像进行描述,并能够比较这些描述。因此,地图的质量以及后续的定位精度将直接依赖于用于视觉描述不同环境位置的方法。基于此,我们将不同的方法根据所采用的描述方法分为:基于全局描述符的方法、基于局部特征的方法以及基于词袋模型(BoW)方案的方法。我们还指出,这些方法可以组合使用。参见图3.1以获取该分类的图示说明。

示意图0

需要注意的是,词袋方案(BoWschemes)通过将从图像中提取的局部特征根据一组代表性视觉词进行量化,主要用于与倒排文件相结合,以高效地索引视觉信息,实现快速图像检索,因此可被视为局部特征方法中的一类子方法。另一种理解方式是,在这些方法中,图像表示从局部特征集合转变为图像中每个视觉词出现频率的直方图,从而将描述符简化为一个整数向量。在本章节中,为了使内容更易于理解,我们决定采用第二种观点,保留词袋模型类别,从而将与词袋模型相关的论文与局部特征相关的论文分开分类。根据该问题的分类法,本章其余部分组织如下:第3.2节列举了基于全局描述符的基本工作,基于局部特征的方法在第3.3节中介绍,第3.4节介绍了基于词袋模型方案构建的主要方法,第3.5节列举了将图像表示为其他表示组合形式的主要工作,第3.6节对本章进行总结。

3.2 基于全局描述符的方法

许多作者提出了使用全局图像表示进行拓扑建图和定位的不同解决方案,这些方案总结在表3.1中。该表针对每种方案列出了所采用的成像配置、生成的地图是纯拓扑地图还是混合表示、预期任务、方法被评估的环境以及所使用的图像描述符。有关全局描述符的更多详细信息,请参见第2.2.1.1节。

3.2.1 直方图

直方图提供了一种紧凑的图像表示方法,并已以不同形式被用于拓扑建图与定位。乌尔里希和努尔巴赫什[14]的工作就是一个例子。他们提出了一种基于外观的拓扑定位方法。每幅图像由六个一维颜色直方图表示,其中三个从HLS颜色空间提取,另外三个从RGB颜色空间提取。给定一幅查询图像后,他们通过最近邻学习方法在其拓扑地图中检索地图中的参考图像。杰弗里散度被用作两个直方图之间的距离度量。他们在多个环境中评估了该系统,在所有环境中至少有87.5%的图像被正确分类。维尔纳等人[15]也采用了组合颜色直方图并结合贝叶斯滤波器的方法,提供了一种拓扑SLAM解决方案。他们使用豪斯多夫距离来比较拓扑地图与机器人平台接收到的视觉观测。他们认为颜色直方图本身不够具有区分性,而贝叶斯滤波器有助于消除外观相似地点的歧义。

科塞卡等人[16]提出了一种使用梯度方向直方图作为图像描述符的导航策略。在探索阶段,通过比较连续帧描述符来构建拓扑地图。对于每个节点,使用学习向量量化(LVQ)计算一组代表性视图。在导航过程中,提取当前帧的直方图,并使用欧氏距离将其与每个节点的代表视图进行比较,以确定最相似的位置。

3.2.2 要点描述符

最近,一些方法提出使用Gist全局描述符[54]。该描述符最初是为场景识别而开发的,其基于人类在某些条件下能够一瞥之下对图像进行分类的观察。其作者得出结论:人类对所谓的场景空间包络具有感知能力,空间包络被定义为一组与空间形状相关的感知属性。他们证明了这种空间包络与二阶统计量(判别谱模板)以及场景中结构的空间排列(窗口化判别谱模板)密切相关。可以通过一组滤波器(例如Gabor滤波器[55])来推断场景的全局描述符。主成分分析(PCA)也可用于降低描述符的最终维度。

辛格和科塞卡[21]针对全景图计算了Gist描述符,将算法应用于全向图像所包含的四个视图中的每一个。他们为这些描述符引入了一种图像全景图之间的新颖相似性度量,并评估了其在城市环境中进行回环检测的有效性。穆里略等人[22]扩展了该方案并提出了全向-要点,即一种适用于从折反射相机获取的全向图像的描述符改进版本,而非多相机系统。他们改进了这些描述符的相似性度量,并提出了一种基于该描述符的分层拓扑定位与地图构建算法。在一项较近的研究中[23],全向‐要点被用于语义标注过程以构建室内拓扑地图。图像被分类为位置或过渡,分别对应于拓扑地图中的节点和边。该位置分类模块与隐马尔可夫模型(HMM)相结合,以确保时间一致性。

刘和张[27]采用主成分分析(PCA)来降低要点描述符的维度,以提高描述符的效率和区分能力。随后,他们提出了一种用于在SLAM系统中检测回环闭合的粒子滤波器。这些描述子在滤波器的更新步骤中被考虑。结果表明,在仅使用少量粒子的情况下,即可在100%精确率下实现高召回率。

Chapoulie等人[28]提出了一种利用球形图像将环境分割为拓扑位置的方法。该分割方法基于检测环境变化以及适用于球形图像的改进版要点描述子。在最近的一项工作[29],中,他们指出要点描述子并不适合表示此类图像,因为球体的空间周期性部分丢失。随后,他们引入了一种基于球谐函数的新 的全局图像表示方法,适用于球面视图。

最后,受Gist和BRIEF二值描述符成功的启发,孙德豪夫和普罗策尔将后者改进为可用于全局描述的BRIEF‐Gist描述符。该实现非常直接:先将图像下采样至图像块大小,然后从其中心计算BRIEF描述符。另一种可能的实现方式是将图像划分为网格,对每个图像块计算BRIEF描述符,并将其连接形成最终描述符。他们将这种简单的描述符用于SLAM系统中的回环闭合,并在实验中展示了其在大规模场景中的适用性。其主要缺点是BRIEF‐Gist 无法检测双向回环。针对这一问题,阿罗约等人提出了一种名为应用于全景图的二值外观回环检测评估算法(ABLE‐P)的方法,能够检测此类情况。他们将每张全景图划分为多个子全景图,并为每个子全景图提取一个LDB二值描述符。最终图像描述符通过连接不同的LDB字符串生成。然后通过使用汉明距离比对不同全景图的描述符来查找回环闭合。在一项较新的研究中,他们更新了该算法以适用于单目或立体相机(ABLE‐S),并在LDB描述符中加入了视差信息,生成了D‐LDB描述符,同样用于回环闭合检测。

3.2.3 垂直区域

为了定义全局全向图像而提取垂直线的方法也已被用于拓扑建图与定位,特别是在室内环境中,这是由于其结构特性所致。在这方面,拉蒙等人[30]提出了位置指纹的概念。指纹是一种通过不同算法提取的特征构成的循环列表。在他们的方法中,使用了两种检测器:一种基于直方图的垂直边缘检测器和一种颜色块检测器。他们还提出了一种基于最小能量算法的特征序列匹配算法,并将该框架用于全局定位。塔普斯等人[31]证明,这种指纹表示法结合特征的不确定性模型可以改善定位结果。在此工作之后,塔普斯和西格沃特[32]扩展了指纹概念,将激光测距仪的信息融入到一种用于多房间室内环境的增量式拓扑建图方法中。

刘等人[33]提出了快速自适应颜色标签(FACT)描述符,用于拓扑建图方法。该方法基于以下事实:在室内环境中,重要的垂直边缘(如窗户、柱子等)会自然地将室内环境划分为若干有意义的切分。对于每个切分区域,计算其U‐V空间中的平均颜色值。该U‐V平均值与区域宽度构成一个称为标签的区域描述符。通过将各个区域描述符依次连接形成一个向量,从而构成场景描述符。新场景与已有节点之间的场景匹配通过计算颜色描述符之间的二维欧氏距离,并根据经验确定的不等式递归比较区域宽度来实现。为了克服该方案存在的主要缺点,他们进一步改进了描述符,提出了另一个版本 DP‐FACT[34],,其中采用狄利克雷过程混合模型对从全向图像中提取的颜色和几何特征进行融合。

3.2.4 Discrete Fourier Transform

多位作者提出使用离散傅里叶变换(DFT)作为全局图像表示方法。梅内加蒂等人[35]将全向图像在全景圆柱上展开,然后逐行展开为傅里叶级数。每幅图像由前15个傅里叶系数(即15个最低频成分)表示,从而降低了每个参考视图的存储需求。作者将这些选定的系数集合称为傅里叶特征。他们还提出了一种方法,可在探索阶段自动组织一组参考图像,形成视觉记忆,并基于该框架实现导航方法。为了克服原始方法中存在的感知混叠问题,在后续工作[36],中,他们通过将该图像表示方法与粒子滤波器融合,改进了其定位系统。

在这些工作基础上,帕亚等人[37]提出了增量映射过程,在机器人遍历环境的同时进行建图;而兰甘纳森等人[38]引入了概率拓扑地图(PTM)的概念,其中采用粒子滤波器来逼近在给定传感器测量和里程计数据的情况下关于可能的拓扑结构的后验分布。

3.2.5 生物启发方法

受生物启发的解决方案试图模仿生物系统的信息处理方法和问题解决能力,模拟生物体的行为。一些拓扑建图与定位方案属于这一子类别。

加斯帕等人[13]使用全向相机模拟昆虫的基于视觉的导航能力,对室内环境进行了建图。拓扑地图的图像被编码为主成分分析得到的低维特征空间中的流形。在离线阶段,他们创建了环境的表示,生成了拓扑地图,随后用于基于视觉跟随方法的导航。

米尔福德等人[39]提出了RatSLAM,这是一种源自啮齿动物海马复合体模型的单相机SLAM系统。作者指出,这些模型的操作似乎具有某些拓扑和度量特性上的优势,因此可被视为一种混合方法。环境表示通过一种称为位姿细胞的竞争吸引子网络结构构建,用于同时表示机器人位置和方向的置信度。该系统执行颜色分割过程[58],以检测实验区域周围分布的彩色圆柱体,从而更新这些位姿细胞。随后,普拉瑟等人[40]对该方法进行了改进,使其适用于室外环境,并使用全向相机作为主要输入传感器。图像通过色调和饱和度颜色通道的直方图进行描述,并使用 χ2统计量进行比较。之后,米尔福德和怀思[41]利用RatSLAM对一个郊区长达66公里的路径进行了建图,展示了其在长期运行中的适用性。该系统采用扫描线强度轮廓作为图像描述符,即通过将每个像素列的强度值求和并归一化最终向量形成的一维向量。格洛弗等人[42]将RatSLAM与其他方法组合,以应对在一天中不同时段生成连贯地图这一挑战性问题。

3.2.6 其他方法

温特斯等人[12]在训练阶段利用全向相机从环境中创建拓扑地图。节点是具有共同特征的图像集合属性和链接是两个节点之间连续视图的序列。通过对获得的大图像集进行主成分分析压缩,得到一个低维特征空间,机器人可以通过基于外观的方法从中确定其全局拓扑位置。

巴迪诺[45]提出了一种基于称为整幅图像SURF(WI‐SURF)描述符的室外定位方法,其中根据[59]计算整个图像的加速鲁棒特征(SURF)描述符。地图的每个节点都关联了其采集位置的GPS坐标,并使用贝叶斯滤波器来计算位于地图上各个离散位置的概率。他们报告了在长期定位实验中的成功结果,证明了该方法解决全局定位问题的有效性。在最近的一项工作中 [46],他们提出了一种在任意道路网络上对车辆进行定位的算法。

拉特加恩等人[47]研究了如何在光照剧烈变化的环境中生成鲁棒的描述子。他们提出使用可用来构建数百万个描述子的构建模块。在这项工作中,提出了一种评估这些描述子性能的评估函数,以及一种针对它们的搜索算法。同时展示了回环检测的实验结果。实验采用了所找到的最佳构建模块组合,并将其命名为Dird isan Illumination Robust Descriptor(DIRD)。

吕和贾维斯提出了一种用于自主移动机器人的完整回环闭合系统 [43, 44],,其中使用基于GPU的二维哈尔小波分解来描述全向图像。这些图像用于创建签名数据库。每次车辆重新访问先前见过的位置时,都会执行一种松弛算法来调整拓扑结构。

努拉尼‐瓦塔尼等人[48]提出利用光流信息来检测环境变化,使用光流矩(OFM)和光流形状上下文(OFSC)描述子。然后,从光流中提取统计属性以定义每个位置。一旦生成了节点数据库,其中节点被定义为检测到的场景变化,便通过马氏距离和 χ2距离获得最可能的位置。他们在室内和室外环境中评估了该方法,结果表明该方法可应用于多种场景。

在最近的一项研究中,米尔福德和怀思提出了SeqSLAM[49],,该方法不是根据当前帧搜索单个先前看到的图像,而是通过识别局部连续图像的连贯序列来进行定位过程。他们表明,该方法可用于在天气或季节变化条件下的视觉导航。他们采用了原始图像裁剪版本中的归一化补丁,并使用绝对差之和(SAD)来比较这些图像块。他们还表明,即使每幅图像仅有少量比特,也能实现路径识别[50],并研究了序列长度对SeqSLAM算法性能的影响[51]。最近在[52],中提出了一种名为跨路径遍历序列匹配(SMART)的 SeqSLAM算法改进版本,该方法通过整合自运动信息形成空间一致的序列,从而提高了其通用适用性,并引入了新的图像匹配技术以应对更大的感知变化和平移姿态差异。

吴等人[53]提出了一种回环检测方法,该方法使用了极为简单的图像表示。图像首先通过高斯核进行平滑处理,然后缩放为一个小的图像块。接着采用大津法对图像进行二值化,生成一个包含数百位的二进制码。图像对之间的互信息被用作相似性度量。根据他们的实验结果,该方法能够在包含两千万关键位置的地图中成功检测到回环闭合。

3.3 基于局部特征的方法

一些作者,如表3.2所示,已使用局部图像特征来执行拓扑建图与定位任务,特别是在洛伊的尺度不变特征变换(SIFT)算法发布之后。科塞卡和杨[60, 61]使用SIFT特征描述室内环境中的图像,并基于简单的投票机制执行全局定位过程。为了克服环境中的动态变化所引起的问题,他们提出通过隐马尔可夫模型引入关于各个位置之间邻域关系的额外知识。似然函数基于当前图像与过去位置之间的对应关系数量。在此工作基础上,他们在[62]中提出了一种特征选择策略,以减少每个位置的关键点数量。该策略通过测量各个特征对每个拓扑位置的可区分性来实现。张[63]也提出了一种从图像中选择视觉特征子集的方法,称为原始特征包(BoRF)。这些特征根据其被发现的尺度进行选择。一个位置由可在多个图像中连续匹配的特征集表示,并基于他们之前的工作[100]采用关键帧选择策略。BoRF存在的主要问题是,随着新图像的增加,需要管理的特征数量也随之增长,导致线性匹配搜索变得不可行。这一缺点在[64]中通过使用kd树结构索引特征得以解决。

基于仅保留持久特征的思想,多位作者已向学术界提出了各种解决方案。里布斯基等人[65]使用Kanade‐Lucas‐Tomasi(KLT)特征跟踪器,在一系列全向图像中匹配持久特征,并逐步构建拓扑地图。何等人[66]提出利用流形约束来寻找代表性特征原型,这些特征原型能够以高效的方式表示环境中的任意图像。萨巴塔[67]提出了一种建图与定位算法,该算法利用连续全向图像中SIFT特征的持久性来改善数据关联。他还修改了SIFT算法,以在描述符中包含颜色信息。最近,约翰斯和杨[68]提出一种方法,其中地图由跨多个图像检测到的一组地标组成,覆盖节点图像之间的连续空间。给定一个查询图像,进行匹配指向地标而非单个图像,从而在不牺牲解决方案速度的情况下生成密集连续的拓扑地图。他们提出了一种基于学习到的每个地标的判别性特征的概率定位方法。

卡韦翁等人提出了位置不变鲁棒特征(PIRFs)[69, 70],一种从SIFT描述符生成平均特征的方法,能够在给定图像序列的时间窗口内,在多个连续帧之间进行匹配。每个地点由这些代表性PIRFs的字典表示,其外观变化相对于机器人运动被认为相对较小。然后将这些特征用于一种称为PI RF‐Nav的增量式基于外观的SLAM算法中,该算法基于多数投票机制。尽管他们在召回率方面相较于其他常见解决方案展示出若干改进,但该方法的主要问题在于计算成本,因为某些图像需要较长时间处理。为了提升此性能, Tong‐prasit等人[71]改进了原始PIRF算法,并在一种名为PIRF‐Nav2的 SLAM方法中增加了新的字典管理机制。该方法比原始PIRF‐Nav快12倍,仅牺牲了少量的召回率。森冈等人[72]提出了一种将PIRFs与里程计源结合映射到三维空间的方法。他们的方法称为3D‐PIRF,在拥挤的室内环境中导航进行了验证。

安德烈松和达克特[73]提出了一种简化版的SIFT算法(M‐SIFT),该算法被适配用于全向图像,其中描述符仅在一个分辨率下提取,因为在他们的应用场景中不需要完全的尺度和平移不变性。兴趣点使用Shi和Tomasi方法进行选择。文中还介绍了多种用于拓扑定位的图像描述方法,并表明 M‐SIFT方法相较于其他方法具有最佳性能。使用M‐SIFT描述符,瓦尔格伦等人[74]通过图像相似性矩阵来表示环境。他们通过搜索更有可能描述回环闭合的单元格,避免了对亲和矩阵的穷尽计算。随后,在[75],中他们采用了穷尽搜索,但引入了增量谱聚类算法,以便在处理新图像时逐步减小搜索空间。他们还研究了室外环境随时间变化的拓扑定位问题[76],,比较了SIFT和 SURF在这些任务中的表现,得出结论:SURF在室外场景的拓扑定位中表现更好。此外,阿斯卡尼等人[77]发现,在室内环境中执行拓扑定位任务时, SIFT的表现更优。其他通过相似性矩阵构建拓扑地图的研究者包括阿纳蒂和达尼伊利迪斯[78]。在他们的工作中,提出了一种针对全景图的新型图像相似性度量方法,该方法结合动态规划,同时利用局部特征的外观和相对位置来进行图像匹配。回环闭合的概率则通过图像相似性矩阵上的马尔可夫随机场(MRF)进行建模。

一些研究人员从一组输入图像中构建环境的分层地图。这些方法将高层概念地图(通常是拓扑地图)与低层且几何精确的地图相结合,旨在最大限度地发挥每种地图的优点,同时减少各自单独使用时的问题,并将它们融合到一种不同的建图技术中。齐夫科维奇等人[79]提出了一种从图像自动生成分层地图的算法。该方法首先利用SIFT特征和几何约束构建低层地图,然后使用图割算法对节点进行聚类以构建高层表示。这种分层表示随后被应用于[80],,其中展示了基于拓扑空间的导航系统,该系统利用对极几何和平面地面约束来实现航向估计。这项工作在[81]中得到了进一步改进,提出了一种基于图的连通支配集(CDS)概念的增量数据关联方案。对于一张新图像,该方法用于寻找一组能够代表完整图像集合的历史图像子集,从而在机器人运动轨迹中实现高效的回环检测。Dayoub等人[82]提出了一种解决方案,首先使用基于图的SLAM算法生成环境的初始稠密位姿图地图。然后利用该地图推导出一个具有全局和局部两级结构的稀疏混合地图。全局层通过双重聚类方法构建的拓扑地图表示;在局部层,每个节点存储从该节点位置采集的图像中提取特征的球形视图表示,并用于通过多视图几何方法估计机器人的航向。作为本书的贡献之一,在第7章中引入了一种基于视觉的混合拓扑建图方法。

不同于从一组几何关系中推断出高层拓扑地图,其他研究者提出了一种替代性的混合表示方法,其中全局拓扑地图的每个节点都包含其自身的度量子地图。Blanco等人[83]提出了一种称为混合度量‐拓扑SLAM( HTM‐SLAM)的方法。机器人所经过区域的序列被建模为一个图,该图的节点标注有度量子地图,边则包含这些区域之间的坐标变换。他们还提出了一种统一贝叶斯方法,在机器人遍历环境时估计机器人路径。这项工作在 [84]中通过使用谱方法高效地将地图划分为子地图,并推导出将其思想应用于其他传感器(如立体相机)的表达式而得到改进。在同一方向上,Tully 等人[85]提出了一种基于hierarchical atlas地图[101],的混合定位解决方案,该结构专为在大范围环境中运行的机器人设计。在此框架中,全局拓扑地图将空间分解为多个区域,每个区域内构建一个基于特征的地图。定位过程分为两个步骤:首先,使用递归贝叶斯滤波器计算离散概率分布,以确定最可能的地图;然后,在对应的度量子地图内使用卡尔曼滤波器估计度量位置。随后,在[86],中,他们进一步研究了SLAM作为多假设拓扑回环闭合问题的处理方法。这两项工作最近在[102]中被组合成一个更完整的解决方案。

Segvic等人[87]创建了一种用于大规模建图和定位的混合视觉导航框架,该框架结合了从单目透视图像中提取的多种特征。尽管该方法仅基于 2D图像测量支持导航,但它依赖于3D重建过程。Ramisa等人[88]也尝试结合多种局部特征区域检测器,以创建用于定位目的的地点签名。他们表明,与单独使用一种描述符相比,这些组合显著提高了性能。巴迪诺等人[89]在其称为topometric定位的混合方法中,将度量数据直接集成到拓扑地图中。图中的每个节点都被存储以及其GPS位置。他们以恒定的欧氏距离采集图像,并为每幅图像提取视觉局部特征。接着生成一个特征数据库,其中每个特征都存储了对其对应实际位置节点的引用。该数据库随后被贝叶斯滤波器用于估计车辆沿路线行驶时观察者位置的概率密度函数。

阿特金森和希夫林提出的人类记忆多存储模型[103]启发了多种方法。该模型将人类记忆分为三个存储单元:感觉记忆(SM)、短期记忆( STM)和长期记忆(LTM)。输入的信息首先存储在感觉记忆中。通过选择性注意过程决定哪些信息可以被转移到短期记忆中。存储在短期记忆中的信息一旦不再受到关注就可能被遗忘。通过复述过程,信息从短期记忆转移至长期记忆,以实现更长时间的保留。戴尤布和达克特[90]利用这些概念,根据环境在长期运行期间发生的动态变化,保持地图中特定位置外观的更新。巴卡等人[91, 92]改进了这一人类记忆模型,引入加权投票机制,从而仅将环境中较强的特征传递到短期记忆中。该记忆模型采用特征稳定性直方图 (FSH)实现,用于记录每个节点中各个特征被观测到的次数。一种更为完整的FSH方法在[93],中提出,对该初始方案进行了改进以适应SLAM条件下的运行。

罗梅罗和卡佐拉[94, 95]提出了一种构建拓扑地图的方法,通过匹配不变特征图来实现。每幅图像被分割成多个区域,以便将提取的不变特征分组到一个图中,使得每个图定义图像的一个单一区域。匹配过程利用图变换匹配(GTM)算法,综合考虑了特征及其结构。

最近,马吉克等人[96]研究了空-地匹配定位问题,其中需要将安装在微型空中飞行器(MAV)上的相机拍摄的图像与从谷歌街景获取的带有地理位置标签的图片数据库中的图像进行匹配。为了应对显著的视角变化,他们提出利用系统的空‐地几何关系生成每个场景的虚拟视图。通过直方图投票机制获得最佳图像对应关系。他们将该方法与多种最先进的方法进行了比较,在计算性能和精确率‐召回率方面均优于这些方法。

其他基于局部特征的解决方案[97, 98]将粒子滤波器作为在拓扑地图上估计位置概率分布的方法。最近,毛海等人[99]将粒子滤波器与基于GPU 的图像描述与匹配算法组合,定义了一种用于室内环境的完整的拓扑自主导航系统。

3.4 基于词袋模型的方法

由于词袋模型(BoW)算法能够在大规模图像数据集中快速找到相似的图像候选,近年来该算法已被广泛应用于多种拓扑建图方法中。有关词袋模型的更多细节,请参见第2.2.2节。

在词袋模型中使用的视觉词汇通常在训练阶段的离线阶段生成。如第3.6节所述,在离线阶段生成视觉词典存在若干问题。为了克服这些缺点,一些研究者提出以增量方式构建视觉词典,使码字能够适应运行场景的外观。本节根据此标准对基于词袋模型的方法进行分类。基于词袋方案的主要方法总结于表3.3中,遵循与前面章节相同的准则。

3.4.1 离线视觉词汇方法

尽管词袋算法已被应用于其他领域,例如互联网搜索引擎或场景分类 [143, 144],,但它首次被应用于Sivic和Zisserman的开创性工作中[145],,以实现视频序列中相似场景的查找。该方法从每一帧中提取SIFT特征,并将其量化为词袋向量,从而构建一个词袋图像表示数据库。他们提出了一种交互式应用,用户可通过查询图像数据库来寻找相似的帧,即具有足够共同特征的帧。系统还使用了一个称为倒排文件的查找表,将图像词汇映射到其出现的视频帧中,以加快检索过程。王等人[104, 105]提出了一种基于词袋模型的由粗到精的全局定位系统,其中使用Harris‐Laplace检测器检测兴趣点,并用SIFT算法进行描述。在离线阶段,创建了词汇表和倒排索引,并将其用于定位。此外,引入了对极几何步骤,以验证从词袋阶段获得的回环候选是否合理。

词典的大小可以在很大范围内变化,这会影响检索过程的性能。词典越大,词汇的区分能力越强,但查找最近参考描述符的计算成本也越高。分层视觉词汇被提出作为缓解此问题的有效改进方法[146],,其中原始描述符训练集首先被聚类为少量簇,然后每个簇再递归地进行聚类,直到达到所需的词数。对于一个查询描述符,寻找其最接近的词的过程包括从根节点开始遍历树,直到到达叶节点。这种分层表示与倒排索引相结合,使词袋算法成为一种理想且可扩展的搜索方法。

以一种高效的方式处理数百万张图像,是进行大范围环境建图时的一个良好选择。弗劳恩多费等人[106]将这种分层字典应用于视觉导航问题,提出了一种使用图像集合的高可扩展性基于视觉的定位与建图方法。对于相机捕获的每一帧图像,他们利用字典结构和倒排文件来检索最可能匹配的图像。通过aRANSAC流程,对这些候选图像进行几何验证,以此判断该图像是否构成闭环,或者是一个需要添加到地图中的新位置。他们使用了局部利用几何信息在生成的拓扑地图中进行导航。Konolige等人[107]提出了一种基于该分层码本并使用立体相机的SLAM解决方案。根据他们的实验结果,该方法在室内外环境中进行了评估,能够在数公里长的路径中找到回环闭合。在检测回环闭合时,采用了一个强几何滤波器来消除误报。

可能属于此类别中最著名的解决方案是康明斯和纽曼等人提出的快速外观建图(FAB‐MAP)方法[108,109],,该方法基于这样一个假设:建模视觉词同时出现的概率有助于定位过程。这些概率通过Chow‐Liu树进行近似,该树从训练数据集中计算得到,作为视觉词之间共现的有向图的最大权重生 成树。这种近似使作者能够高效地计算观测似然,进而用于贝叶斯滤波器中 预测闭环候选。原始FAB‐MAP算法的主要缺点是计算成本较高,因为每次 机器人采集到观测数据时,都需要针对地图中存在的每个位置计算似然。为 解决此问题,康明斯和纽曼[110, 111]引入了一种基于集中不等式的概率性 提前退出测试,以快速识别有希望的回环闭合假设,从而避免对所有位置计 算似然。随后,提出了一种更快的版本FAB‐MAP2.0[112, 113],其将概率 模型调整为适用于类似典型图像搜索引擎的倒排索引架构。该方案在一个由 1000公里全向图像和作为真实值的GPS坐标组成的数据集上进行了评估。在 纽曼等人的研究中[114],,FAB‐MAP与激光雷达组合使用,作为检测城市 场景中回环闭合的组件。

最初,作者仅向社区发布了FAB‐MAP的二进制文件。因此,格洛弗等 人开发了OpenFABMAP[147],——该算法的一个完全开源的实现,并进行 了一些改进。OpenFABMAP是马德纳等人提出的连续外观基轨迹SLA M(CAT‐SLAM)[115, 116],解决方案中的关键组件,其中基于外观的 SLAM系统通过使用粒子滤波器融合里程计信息,以获得对车辆位置的估计。在[117]中提出了一种称为CAT‐Graph的CAT‐SLAM扩展,通过结合对 同一地点的多次访问来构建室内环境的基于拓扑图的表示。这些图根据外观 基模块检测到的回环闭合,在建图与定位过程中被使用。

由于FAB‐MAP中使用的词袋模型未考虑视觉词的空间排列,保罗和纽 曼引入了FAB‐MAP3D[118],,他们证明在算法中融合此类信息可提高定位 精度。通过使用随机图,他们对视觉词的共现及其成对距离进行建模,并展 示了如何通过对该图进行Delaunay三角剖分来加速推理过程。另一种在词 袋模型中引入空间信息用于定位的尝试是近期的研究工作由约翰斯和杨提出,他们展示了特征共现图(Cooc‐Map)[119],其中局部 特征在特征空间和图像空间中都被量化,并计算了它们在一天中不同时段共 现的一系列统计信息。他们还为此类表示引入了一种新的几何特征匹配算法, 并展示了如何将序列匹配融入其解决方案中。他们还表明,相较于使用单幅 图像来表示一个位置,通过学习长时间观测到的局部特征属性可以实现更精 确的定位[120]。

加尔韦斯‐洛佩斯和塔尔多斯[121, 122]的研究中提出了一种利用二值特 征构建视觉词典的方法。他们改进了尼斯特的分层词袋模型,使其适用于通 过FAST检测并用BRIEF算法描述的关键点。该工作的其他创新包括采用直 接索引以高效地获取图像间的对应关系,以及对图像组进行匹配以提高回环 检测过程的准确性。使用该框架,他们能够在包含19,000张图像的序列中检 测回环闭合,每张图像平均耗时16毫秒,相较于其他方案在性能上表现出显 著提升。最近,他们的字典构建方法与ORB描述符结合应用于[123],,在识 别性能方面显示出进一步改进。

兰甘纳森等人提出了一种称为在线概率拓扑建图(OPTM)[124],的方 法,该方法是一种基于Rao‐Blackwellized粒子滤波器的在线闭环算法,用 于在新测量数据到达时增量地更新所有可能拓扑结构空间上的后验概率。由 于OPTM与传感器无关,因此在室内环境中使用了激光测距仪、里程计源和 视觉输入对其进行评估。该方法采用基于多元Polya分布的词袋模型对 SIFT描述符进行量化。OPTM通过改进推理过程,提升了此前称为概率拓 扑地图(PTM)[148]的框架,使其能够支持在线应用。

卡德纳等人[125]提出了一种基于立体视觉的地点识别框架,该框架结 合了词袋模型以获取闭环候选,并采用基于条件随机场(CRF匹配)的算法 来验证这些候选。作者指出,这种匹配方法比仅使用对极几何更加鲁棒,因 为它利用了立体图像提供的3D信息。该模块随后被用于[149],,其中提出了 一种利用实现、逆转、恢复(RRR)算法去除过去错误回环闭合的方法。

一些作者提出了不同于词袋模型方法中通常使用的TF‐IDF的加权策略。首先,Ciarfuglia等人[126]提出了一种在训练阶段为视觉词分配权重的判 别性准则。这些权重基于大间隔范式的方法进行学习,并可应用于多种相似 性函数以比较图像。该加权方案在一个SLAM框架中的回环检测模块中进行 评估,用于在室内和室外环境中导航。另一个案例是Majdik等人[127], 他们提出了一种基于分层词袋模型的自适应回环检测算法。一种能够根据视觉词在检测回环闭合时的重要性来更新其权重的模型。他们 使用单目和双目相机在室外环境中对其方法进行了评估。

尽管在室外环境中可以使用全球定位系统(GPS)来估计机器人的位置,但 在城市环境中,建筑物可能会阻挡卫星信号,导致情况更具挑战性。显然,在这 些情况下,视觉成为一种可行的外部感知传感器。然而,对城市中的图像进行索 引在计算性能上可能非常困难,因此词袋模型(BoW)可用于应对这类情况。在此背景下,Schindler等人[128]提出了一种用于识别城市场景的定位系统, 他们利用词袋模型方案成功地对来自城市的30,000张图像进行了索引。他们表 明,通过从训练数据集中选择最具信息量的特征——即那些出现在某个特定位置 所有图像中但不出现在其他地方的特征——可以更高效地检索如此大量的信息。该概念通过信息增益公式进行度量。他们还提出了一种名为贪婪N最优路径( GNP)的替代搜索算法,以提升图像检索性能。Achar等人的研究中提出了一 个更近的城市定位解决方案,[129],其中利用几何推理来识别场景中对应于运动 物体的特征。这些特征随后被用于全局定位。

最近,Lee等人[130]提出了一种地点识别系统,该系统并未对兴趣点进行 量化,而是使用均值标准差线描述符(MSLD)处理线条。他们利用这些向量训 练了一个分层视觉词典,并将其与贝叶斯滤波器结合,用于在室内环境中检测回 环闭合。他们将这一回环检测模块集成到了一个SLAM解决方案中。

最近出现的其他地点识别解决方案基于词袋框架,通过调整FAB‐MAP以分 层方法运行[141],或为每组图像或环境维护一个倒排文件[142]。

3.4.2 在线视觉词汇方法

另一种使字典适应运行环境的方法是在机器人探索世界的同时在线生成字典。在这方面,Filliat[131]提出了一种动态构建视觉词典的方法。通过简单的 线性搜索算法选择与给定局部特征最接近的视觉词。如果这些特征之间的距 离非常远,则将查询的局部特征作为新词添加到字典中。该方案在不同的特 征空间下进行了评估,并用于建图与定位任务,但由于线性搜索算法效率低 下,仅适用于小范围距离。Angeli等人[132]将该模型扩展至增量条件,以 应用于地点识别模块。他们的方法依赖于离散贝叶斯滤波器来估计回环闭合 的概率,并确保时间一致性预测。在计算似然度时,根据当前图像中每个词的显著性提取了TF‐IDF系 数。该工作在[133],中得到改进,其中训练并联合使用了两个视觉词汇作为 贝叶斯滤波器的输入,并在[134]中通过构建完整的拓扑SLAM系统进一步 扩展。

受安杰利工作的启发,拉贝和米肖提出了一种称为实时外观地图构建 (RTAB‐Map)的解决方案[135, 136],用于大规模和长期SLAM中的回环 检测。该方案的主要贡献在于,他们提供了内存管理机制,用于在主内存 (称为工作记忆)中缓存在线学习的视觉词的一个子集,并利用该子集进行 回环闭合检测。其余部分则存储在一个位于外部存储器中的数据库里,该存 储器被称为长期记忆。视觉词在不同记忆间的转移由图像处理时间以自适应 方式决定。该方案能够在保持解决方案实时性能的同时,实现高召回率且精 确率达到100%。

尼科塞维奇和加西亚[137, 138]提出了在线视觉词汇表(OVV),其 中视觉词是在机器人探索环境的同时,通过改进的凝聚聚类算法生成的。基 本簇由可在图像序列中跟踪的特征创建,每个簇由特征的均值描述符以及当 前点处观测到的描述子的协方差矩阵表示。为了合并这些簇,他们提出了一 种基于费舍尔线性判别的新准则,该准则考虑了数据的全局分布,从而生成 更具区分性的视觉词。此外,还提出了一种在词汇表变化时高效重新索引图 像的方法。其试验结果的一个有趣方面是,除了户外场景外,该方法还在水 下环境中进行了评估。最近,OVV技术被用于[140]在机器人捕获的图像流 中执行无监督拓扑地点识别。

最近,一种基于二值描述子的增量词袋模型方案IBuILD[139]出现了。在这项工作中,作者提出了一种构建可用于回环检测的视觉词典的方法。然 而,作者并未采用索引机制来高效地搜索特征。

尽管这些方法与位姿图SLAM领域关系更为密切,但仍存在一些采用在 线构建词袋模型方案的其他解决方案,可能对读者有所启发,例如伊德和德 拉蒙德[150],、博特里尔等人[151]以及普拉迪普等人[152]的研究。

3.5 基于组合方法的方案

为了最大化每种方法的优势,一些作者提出了基于不同图像描述子组合的拓 扑地图构建和定位解决方案。属于此类的主要方法总结在表3.4中,其指定 了与前面章节相同的特性。

一种常见的方法是在图像搜索过程中使用全局描述符快速选择相似的图 像,然后通过更精确的过程(例如匹配局部特征)来确认关联性。戈德梅等 人[153]提出了一种用于全向相机的定位系统,对于每幅获取的图像,他们 提取垂直列段并用十种不同的描述符对其进行描述。经过聚类处理后,这些 局部描述符被插入到kd树结构中,供定位过程使用。当接收到查询图像时, 会对整幅图像计算应用于垂直结构的相同局部描述符,并用于快速检索可能 的回环候选。接着,在图像与每个候选之间应用基于列段的匹配距离,以确 保正确的图像匹配。该定位过程由贝叶斯滤波器支持,使其能够处理噪声测 量。他们的工作在[154],中得到改进,提出了一个完整的导航系统,将 SIFT特征添加到框架中,并将邓普斯特‐谢弗概率理论应用于拓扑地图的构 建。

穆里略等人[155]提出了一种针对全向图像的三步分层定位方法。首先 使用全局颜色描述符获得一组潜在的回环候选,然后通过金字塔匹配对由其 线支持区域描述的线特征进行匹配,以在给定预定义视觉记忆的情况下找到 最相似的图像。采用一维径向三焦点张量实现度量定位。他们的工作后来被 扩展,在框架中引入了SURF特征[156]。

王和八木[157]最近将他们的OACH全局描述符与通过Harris‐Laplace检测 器提取并由SIFT描述符描述的局部特征组合。他们创建了两个数据库:一个用 于粗略定位的OACH描述符数据库,以及一个用于精确定位的aSIFT数据库。在 全局定位阶段,提取出一组候选图像,然后针对该子集执行精确定位步骤。采用基于RANSAC的基础矩阵估计策略,以验证图像关联是否正确。韦iss等人[158]使用粒子滤波器进行户外定位,其中粒子权重根据使用 两个全局描述符WGOH和WGII计算的相似性进行更新。为了计算两幅图像 之间的相似性,每个描述符分别通过归一化直方图交集进行比较,最终距离 为前述结果的乘积。该方法与SIFT进行了比较,召回率略低,但速度快了四 倍。之后在[159],SIFT被整合到他们的框架中,作为在无法使用组合的全局 描述符方法推断位置时计算机器人位置的替代方案。

另一种基于粒子滤波器并受生物概念启发的定位方法见于Siagian和 Itti提出的工作[160],,该方法基于Gist和显著性特征,并利用共享的原始特 征通道并行实现。

Chapoulie等人[161]提出了一种用于球面图像的闭环检测算法。提取 SIFT特征作为局部特征,同时使用这些特征在特征空间中分布的直方图作为 全局特征。这些表示方法在贝叶斯滤波器中进行组合,以在室外环境中检测 闭环候选。

王和林提出了一种用于全向图像的组合的局部与全局描述符,称为凸包 普查变换(HCT)[162],,该方法通过从提取的SURF特征反复生成凸包, 并计算构成凸包的这些特征之间的相对幅度,从而得到一组二进制向量。该 表示随后被用于检测场景变化,并生成一组拓扑节点列表。最近,林等人 [163]在此基础上扩展了这一工作,提出了一种新的组合的描述符,称为扩 展‐HTC,其中引入了来自环境的颜色信息(以颜色直方图编码)以及凸包 的结构信息,后者通过特征的质心及任意两个特征点位置之间的总距离来计 算。

王和八木提出了一种组合的边缘、局部特征和颜色直方图的位置识别系 统[164]。图像描述过程以集成方式计算:使用Harris检测器获取边缘和兴 趣点,同时使用SIFT算法描述兴趣点。

毛海等人[165]提出了一种基于全向视觉的分层定位方法,其中在第一 步中,颜色直方图用于从地图存储的图像中选择一个子集。接下来,使用 SIFT局部特征在此子集中实现更精确的定位。

最近,Korrapati等人[166]提出了一种分层建图模型,该模型使用局部 聚合描述符向量(VLAD)将图像组织成拓扑地图,其中局部特征描述符 (如SURF)的量化残差被组合成一个单一的描述符。这使得他们能够创建 包含超过11,000张图像且每秒处理相当数量帧的地图。在一项更近的工作中 [167],,他们还提出了一种使用稀疏节点表示的分层拓扑建图算法,其中采 用分层倒排文件(HIF)实现高效的两级地图存储。

3.6 讨论

在过去的几十年中,由于相机成本低廉且提供的传感器数据丰富,拓扑建图 与定位的视觉解决方案数量显著增加。本章节回顾了过去十五年中出现的主 要方法。我们发现,这些工作可以根据用于表示图像的方法,分为四个主要 类别:
基于全局描述符的方法,其中图像是通过使用全部视觉信息作为输入计算出的一个 通用描述符来表示的;
基于局部描述符的方法,在图像中找到兴趣点,然后描述该点周围的图像块, 以便在其他图像中识别它们; 基于词袋模型的方法,其中局部特征根据一组称为视觉词典的特征模型进行 量化,将图像表示为图像中每个词出现频率的直方图; 基于组合描述符的方法,其中上述几种技术被结合使用以形成一种新解决方案。

每种方法的主要优点和缺点总结在表3.5中。所有这些方法都是活跃的研 究领域,研究人员持续发表针对建图、定位或SLAM问题的解决方案,从这 些方法的角度出发进行研究。

关于上述列举的不同方法类别,全局描述子通常计算速度非常快,有利 于图像间的匹配过程,并降低建图与定位任务的计算需求。其主要缺点是对 遮挡和光照影响的鲁棒性较差,导致区分能力较低,并增加感知混叠效应, 即不同地点可能被误认为是同一地点。它们已被广泛应用于其他相关研究领 域,如场景分类。

局部特征通常对遮挡以及尺度、旋转和光照变化具有更强的鲁棒性。这 些方法首先进行检测阶段,找出图像中的兴趣点,然后进行描述阶段,从这 些关键点周围提取某些度量信息。局部特征具有更好的区分能力,从而带来 更高的识别率和更少的检测错误。此外,可以轻松地恢复图像间的相对位姿, 用于判断两幅图像是否来自同一场景。然而,与全局描述符相比,其存储需 求和计算成本更高,且匹配过程也更为复杂,因为有时每个查询描述符都需 要在大量特征中寻找其最近邻。根据调研的文献,最常用的特征是SIFT,其 次是SURF,二者均将特征表示为浮点数向量。近年来,文献中提出了一系 列二值描述子,在拓扑建图与定位方面展现出值得探索的研究方向,因为它 们计算代价更低、存储更紧凑且比较速度更快。

尽管全局描述符和局部特征在机器人建图与定位中展现了有效的方法, 但在需要处理的图像数量较多时,其效果并不理想。使用局部特征匹配数百 幅图像,在尝试将当前帧与之前观测到的每个位置进行关联时,可能耗时较 长。虽然可以采用索引结构来加速搜索过程,但当描述符数量较大时,会出 现内存问题和计算瓶颈。全局描述符计算更简单且节省存储空间,但牺牲了 区分能力,从而降低了方案的性能。在这种情况下,一种替代性的图像描述 与匹配方法是词袋模型(BoW)算法,该算法可通过分层结构和倒排索引 结构高效地索引大量图像。由于具备快速图像检索能力,属于此类的工作主 要为SLAM方法。其主要局限在于,由于量化过程导致感知混淆现象加剧, 词汇表构建方法粗糙导致存在噪声词,以及词语之间空间关系的丢失。一些 研究者已提出多种改进方法以克服这一缺点[119, 168]。

视觉词典可以离线或在线生成。主要缺点是,离线方法需要一个训练阶 段,在该阶段有时需要对数以百万计的描述子进行聚类。这可能花费数小时, 具体取决于图像数量和所使用的聚类技术。此外,机器人可能运行在一个与 用于生成字典的训练集外观完全不同的环境中,这意味着字典不能代表实际 场景,从而导致误检增加。另一种方法是在机器人在环境中导航的同时,以 增量方式在线构建码本。然而,这需要在字典中插入和删除特征,限制了其 可能的大小。侯等人提出了一项关于视觉词典复用及其通用性的有趣研究 [169]。如今,尽管已有多种方法被提出,但如何高效管理面向词袋模型方 案的在线视觉词典仍被视为一个值得关注的研究课题。另一个有趣的问题是 长期建图,以实现对地图的有效管理。

在环境外观变化的长时间段内。每种字典生成方法的主要优点和局限性总结 于表3.6。

在本章深入的文献综述基础上,并结合所发现的开放研究课题,本书提 出了三种视觉拓扑地图构建方法,从不同的角度来解决该问题:
•在第5章中,研究了用于拓扑建图的索引浮点局部特征的高效方法,提出了一种名 为FEATMap的解决方案。
•在第6章中,我们提出了一种用于地点识别的增量式二进制词袋方法,称为 OBIndex;随后,该方法被用作密集拓扑建图解决方案BINMap中的关键组件。
•在第7章中,为了进一步改进BINMap获得的结果并有利于长期建图任务,引入了 一种称为HTMap的分层方法。
本专著中提出的方法将通过一个共同的框架进行评估,该框架将在下一章 节中介绍。

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型,用户只需输入视频和文字,就能为视频匹配电影级音效

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值