摘要
我们提出了HI-SLAM2,一个几何感知的高斯SLAM系统,仅使用RGB输入即可实现快速准确的单目场景重建。现有的神经SLAM或基于3dgs的SLAM方法经常在渲染质量和几何精度之间进行权衡,我们的研究表明,单独使用RGB输入可以同时实现这两者。我们的方法的关键思想是通过将易于获得的单目先验与基于学习的密集SLAM相结合,然后使用3D Gaussian splating作为我们的核心地图表示来有效地建模场景,从而增强几何估计的能力。在回环检测后,我们的方法通过有效的姿态图BA和基于锚定关键帧更新的三维高斯单元显式变形来确保实时的全局一致性。此外,我们引入了一种基于网格的尺度对齐策略,以保持先前深度的尺度一致性,以获得更精细的深度细节。通过在Replica, ScanNet和ScanNet上的大量实验,我们证明了对现有Neural SLAM方法的显着改进,甚至在重建和渲染质量方面超过了基于rgb - d的方法。项目页面和源代码将在https://hislam2.github.io/上提供。
III. METHODS
我们的系统旨在实现快速准确的摄像机跟踪和单目RGB输入的场景重建。
图3:系统概述:我们的框架由四个关键阶段组成:在线相机跟踪,在线回环检测,在线映射,连续映射和离线优化。相机跟踪使用基于循环网络的方法来估计相机姿势并从RGB输入生成深度图。对于3D场景表示,我们使用3DGS对场景几何建模,从而实现高效的在线地图更新。这些更新与姿态图BA集成,用于在线回环检测,实现快速更新和高质量渲染。在离线优化阶段,对相机姿态和场景几何进行充分的BA,然后对高斯基元和相机姿态进行联合优化,进一步增强全局一致性。
如图3所示,该系统包括四个关键组件:在线跟踪器、在线闭环模块、连续建图器和离线优化阶段。在线相机跟踪器(第III-A节)利用基于学习的密集SLAM前端来估计相机姿势和深度图。通过在线环闭合模块(第III-B节)实现全局一致性和实时性,该模块将环闭合检测与高效的姿态图束调整(PGBA)相结合。对于场景表示,我们采用3D高斯喷溅(3DGS)(章节III-C),实现高效的在线地图构建,更新和高质量渲染。离线细化阶段(section III-D)通过全BA增强重建质量,高斯图和相机姿态的联合优化确保了最优的全局一致性。最终的网格是通过TSDF融合融合渲染深度图生成的。
A. Online Tracking
在线跟踪模块建立在基于学习的密集视觉SLAM方法(DROID-SLAM)上,以估计关键帧的相机姿势和深度图。通过循环光流网络利用密集的逐像素信息,我们的系统可以在具有挑战性的场景中稳健地跟踪相机,例如低纹理环境和快速运动。为了匹配所有重叠帧之间的逐像素对应关系,我们构建了一个关键帧图,它表示每对关键帧之间的共视关系。图节点
对应关键帧,每个关键帧包含一个姿态T∈SE(3)和一个估计深度图d。图边E连接有足够重叠的关键帧,由它们的光流对应关系决定。为了使估计的状态与其他模块同步,帮助连续映射和在线闭环,维护一个关键帧缓冲区来存储所有关键帧及其各自的状态信息。
追踪器从关键帧选择开始,对每一输入帧进行评估,以确定它是否应被选作关键帧。这一决策基于通过单次运行光流网络 [21] 计算出的相对于上一关键帧的平均光流距离,以及一个预设的阈值。对于选定的关键帧,我们通过预训练的神经网络[24]提取单目先验,包括深度先验和正常先验。当深度先验被跟踪器模块直接用于深度估计时,法线先验被场景表示映射器用于3D高斯地图优化作为额外的几何线索。
根据DROID-SLAM,我们在收集了个关键帧后初始化系统状态。初始化过程是在关键帧图上进行BA,其中边连接索引距离在3以内的关键帧,以确保有足够的重叠来实现可靠的收敛。由于单目系统没有绝对尺度,我们通过将所有关键帧深度的均值设为1来对尺度进行归一化。在后续的BA优化中,通过固定前两个关键帧的位姿来保持该尺度作为系统尺度。之后,每当添加一个新的关键帧时,我们都会进行局部光束法平差来估计当前关键帧图中关键帧的相机位姿和深度图。新关键帧与有足够重叠的相邻关键帧之间的边会被添加到图中。利用光流预测
,通过使用由光流预测得到的目标点
来最小化重投影误差,其中相机位姿和深度作为源数据。局部光束法平差优化问题可表述为:
---公式(1)
其中表示从关键帧
到关键帧
的刚体变换,
指关键帧
在逆深度参数化下的深度图,
和
分别表示相机投影和反投影函数。
是一个对角元素表示来自光流网络的预测置信度的权重矩阵。该置信度通过减少由遮挡或低纹理区域导致的异常值的影响,有效地确保了优化的稳健性。在置信度不足的区域(即无法准确估计深度的区域)中的深度估计将在后续步骤中使用单目深度先验进一步优化。
结合单目深度先验:为了克服在低纹理或遮挡区域等困难区域进行深度估计的挑战,我们将易于获取的单目深度先验[24]纳入在线跟踪过程。在(DROID-SLAM)的RGB - D模式下,深度观测值在光束法平差(BA)优化过程中直接用于计算均方误差。然而,我们不能直接采用这种方式,因为预测的单目深度先验存在尺度不一致的问题。为了解决这个问题,[36]提出将每个深度先验的深度尺度和偏移量作为优化参数进行估计。尽管这种方法有助于校准整体先验尺度,但我们发现它不足以完全校正单目深度先验中固有的尺度畸变。
为了进一步改进这一点,我们提议为每个深度先验估计一个具有
维系数
的二维深度尺度网格。每个像素处的深度尺度可以通过基