全新开源框架GSplatLoc:通过 3DGS 实现超精确相机定位!

0. 论文信息

标题:GSplatLoc: Ultra-Precise Camera Localization via 3D Gaussian Splatting

作者:Atticus J. Zeller

机构:Southeast University Chengxian College, Nanjing, China

原文链接:https://arxiv.org/abs/2412.20056

代码链接:https://github.com/AtticusZeller/GsplatLoc

1. 导读

我们提出了GSplatLoc,这是一种相机定位方法,它利用3D高斯分布的可区分渲染能力进行超精确的姿态估计。通过将姿态估计公式化为基于梯度的优化问题,最小化来自预先存在的3D高斯场景的渲染深度图和观察到的深度图像之间的差异,GSplatLoc在副本数据集上实现了0.01 cm内的平移误差和接近零的旋转误差,显著优于现有方法。在Replica和TUM RGB-D数据集上的评估证明了该方法在具有复杂相机运动的挑战性室内环境中的鲁棒性。GSplatLoc为密集映射中的定位设置了新的基准,对于需要精确实时定位的应用(如机器人和增强现实)具有重要意义。

2. 引言

视觉定位,特别是指在已知场景中为给定图像估计相机位置和朝向(姿态估计)的任务,是计算机视觉领域的一项基本挑战。准确的姿态估计对于自主机器人(例如自动驾驶汽车)以及增强现实和虚拟现实系统等应用至关重要。尽管视觉即时定位与地图构建(Visual SLAM)结合了地图构建和姿态估计,但本文专门聚焦于定位组件,这对于动态环境中的实时跟踪至关重要。

传统的SLAM系统已在各种环境中展示了准确的姿态估计能力。然而,其底层的3D表示(例如点云、网格和surfels)在诸如逼真场景探索和精细地图更新等任务中的灵活性方面存在局限性。最近,利用神经辐射场(NeRF)进行表面重建和视图渲染的方法启发了新的SLAM方法,这些方法在跟踪和场景建模方面展示了有前景的结果。尽管取得了这些进展,但现有的基于NeRF的方法依赖于计算成本高昂的体积渲染管道,这限制了它们有效执行实时姿态估计的能力。

3D高斯溅射的开发为高效的新视图合成提供了一种有前景的解决方案,以克服这些限制。其基于光栅化的渲染管道能够实现更快的图像级渲染,使其更适合实时应用。然而,将3D高斯场集成到SLAM系统中仍面临挑战,例如由于非各向同性高斯场和缺乏显式多视图约束,导致对输入图像的过拟合。

当前使用3D高斯溅射的SLAM方法,如RTG-SLAM和GS-ICP-SLAM,主要依赖基于ICP的技术进行姿态估计。其他方法,如Gaussian-SLAM,则采用传统的RGB-D里程计方法。虽然这些方法已显示出潜力,但它们通常没有充分利用高斯溅射表示的可微性质,特别是在实时和高效姿态估计方面。

在本文中,我们介绍了GSplatLoc,这是一种新颖的相机定位方法,它利用3D高斯溅射的可微性质进行高效且准确的姿态估计。通过仅关注定位方面而非完整的SLAM管道,GSplatLoc能够更有效地利用场景表示和相机姿态估计,无缝集成到现有的高斯溅射SLAM框架或其他专注于定位的深度学习任务中。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图

我们的主要贡献包括:基于3D高斯溅射中相机姿态导数的全面理论分析,提出了一个用于实时相机定位的GPU加速框架;提出了一种新颖的优化方法,该方法充分利用了给定3D高斯场景下的渲染过程的可微性质来进行相机姿态估计;并通过大量实验证明了我们的方法的有效性,与利用先进场景表示的最新SLAM方法相比,我们的方法在姿态估计方面表现出竞争性或更优的结果。

通过专门解决基于高斯溅射场景中的定位挑战,GSplatLoc为复杂环境中的高精度相机姿态估计开辟了新途径,有助于视觉定位系统的持续发展,并推动了3D场景理解和导航中准确性和实时性能的边界。

3. 方法

概述。我们提出了GSplatLoc,这是一种新颖的相机定位方法,它利用3D高斯溅射的可微渲染能力进行高效且准确的姿态估计。通过将姿态估计表述为完全可微框架内的基于梯度的优化问题,GSplatLoc能够使用从预先存在的3D高斯场景表示中渲染的深度信息直接优化相机姿态。这种方法使我们能够实现适合实时应用的高精度定位。

动机。使用点云、网格或surfels进行3D表示的传统SLAM系统通常在渲染质量和计算效率方面存在局限性,这阻碍了它们提供逼真场景探索和精细地图更新的能力。神经辐射场(NeRF)已展示了出色的渲染质量,但由于体积渲染中的逐像素光线行进导致的计算效率低下,使得实时应用具有挑战性。最近开发的3D高斯溅射通过使用基于光栅化的渲染管道提供了一种有前景的替代方案。在这种方法中,场景使用一组3D高斯表示,这些高斯可以高效地投影到图像平面上并进行光栅化,以交互帧率生成高质量的渲染图像。该渲染过程的可微性质使得能够相对于场景参数和相机姿态计算梯度。

通过利用这些性质,我们旨在开发一种定位方法,该方法充分利用3D高斯溅射的可微渲染能力。我们的方法侧重于通过最小化渲染深度图与观察到的查询深度图像之间的差异来优化相机姿态,从而实现适合实时SLAM系统的准确且高效的姿态估计。

图片

4. 实验结果

表1展示了在Replica数据集上的绝对轨迹误差(ATE RMSE)结果。我们的方法取得了卓越的性能,平均ATE RMSE为0.01587厘米,比现有方法提高了近两个数量级,显著优于它们。最接近的竞争对手RTG-SLAM(ICP)的平均误差为1.10186厘米。在所有序列中,这一显著提升都保持了一致性,特别是在Of1(0.00937厘米)和R1(0.01272厘米)等具有挑战性的场景中,表现尤为突出。

图片

表2展示了GSplatLoc的平均角度绝对误差(AAE RMSE)为0.00925°。相较于传统基于ICP的方法,这代表了显著的改进。RTG-SLAM和GSICP-SLAM的平均误差分别为0.47141°和0.63100°。在包含复杂旋转运动的序列(如Of2和Of4)中,我们的方法优势尤为明显,保持了低于0.01°的精度。

图片

表3展示了在TUM-RGBD数据集上,各种方法的ATE RMSE(以厘米为单位)。我们的方法取得了具有竞争力的结果,平均ATE RMSE为8.0982厘米,在大多数序列中优于GS-ICP-SLAM和Gaussian-SLAM。虽然RTG-SLAM在某些序列中显示出较低的误差,但我们的方法在不同环境中始终提供了准确的位姿估计。与Replica数据集相比,误差有所增加,这是由于TUM RGB-D数据集中存在现实世界的挑战,如传感器噪声和环境变化。尽管面临这些挑战,我们的方法仍表现出鲁棒性,并保持了合理的定位精度。

图片

图片

5. 总结 & 未来工作

在本文中,我们介绍了GSplatLoc,这是一种利用3D高斯溅射(splatting)的可微分渲染能力实现超精确相机定位的新方法。通过将位姿估计公式化为一个完全可微分框架内的基于梯度的优化问题,我们的方法实现了从预存在的3D高斯场景中渲染的深度图与观测到的深度图像之间的高效准确对齐。

在Replica和TUM RGB-D数据集[39]上进行的广泛实验表明,GSplatLoc在平移和旋转精度方面均显著优于最先进的SLAM系统。在Replica数据集上,我们的方法平均绝对轨迹误差(ATE RMSE)为0.01587厘米,比现有方法提高了一个数量级。该方法在TUM RGB-D数据集[39]上也保持了竞争性能,尽管面临传感器噪声和动态元素等挑战,但在现实场景中仍表现出鲁棒性。

GSplatLoc的卓越性能可归因于几个关键因素。使用完全可微分的深度渲染过程,可以高效地基于梯度优化相机位姿。在我们的优化目标中结合深度和轮廓损失,可以同时捕获绝对深度差异和结构特征,从而提高位姿估计的准确性。此外,采用四元数表示旋转提供了连续且无奇异性的参数空间,提高了优化过程的稳定性和收敛性。

尽管结果前景看好,但在未来的工作中仍有待解决的问题。对准确深度数据的依赖意味着在传感器信息存在噪声或不完整的情况下,性能可能会下降。将GSplatLoc集成到具有稳健初始化、闭环检测和处理动态场景能力的完整SLAM系统中,将增强其适用性。此外,探索提高大规模环境计算效率的方法仍是未来研究的重要方向。

总之,GSplatLoc在SLAM系统的相机定位精度方面取得了重大进展,为密集映射中的定位技术树立了新标准。该方法实现超精确位姿估计的能力对机器人和增强现实等领域的应用具有重要意义,这些领域需要准确高效的定位。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值