作者 | ChristianHomeyer 编辑 | 深蓝AI
点击下方卡片,关注“3D视觉之心”公众号
第一时间获取3D视觉干货
>>点击进入→3D视觉之心技术交流群
导读:
随着新视角合成技术的发展,SLAM技术与NeRF等视角合成技术的结合产物--神经隐式SLAM在近期得到了充分的研究。然而,单纯依赖这些方法的SLAM系统在跟踪性能上仍落后于传统SLAM和端到端的SLAM系统。此外,这些方法还对相机的参数标定提出了很高的要求,往往需要进行额外的标定工作确保算法能够稳定运行。
©️【深蓝AI】编译
论文标题:DROID-Splat Combining end-to-end SLAM with 3D Gaussian Splatting
论文作者:Christian Homeyer, Leon Begiristain, Christoph Schnörr
论文地址:https://arxiv.org/pdf/2411.17660
为了弥补这一不足,本文提出了一种基于端到端跟踪器的SLAM系统,并结合了基于最新3D Gaussian Splatting(3DGS)的渲染器。该框架名为DroidSplat,能够在常见的SLAM基准测试中实现先进的跟踪和渲染效果。通过在现代SLAM系统中实现多个模块并行运行,该方法可以在普通消费级GPU上进行快速推理。
该研究的重要意义在于,结合单目深度预测和相机标定的新进展,DroidSplat能够在没有已知相机内参的情况下,从而减少了对于标定的需求,在工程化的场景中能够节约大量的人力成本。这为在复杂环境下实现高效、精准的SLAM系统提供了新的可能,并推动了SLAM技术在实际工程应用中的发展。
▲图1|效果初览(DROID-Splat能够在已知或未知内参的情况下,实现照片级真实感的重建。)©️【深蓝AI】编译
同时定位与建图(SLAM)一直是计算机视觉中的一个长期难题,广泛应用于机器人技术、自动驾驶和增强现实等领域。传统的SLAM系统主要依靠手工设计的特征来重建准确的里程计和几何结构,但通常只能生成稀疏或半稠密的环境表示。而端到端的SLAM系统通过使用学习到的特征和稠密重建目标,提升了系统的鲁棒性和精度,但它们往往无法优化出照片级真实感的场景。
最近的场景合成技术的进展使得独立的SLAM系统能够增加渲染模块,从而实现对于场景观测的实时渲染。然而,尽管这些系统在某些方面有所进展,其跟踪性能仍然不如传统SLAM系统和端到端SLAM系统。为了解决这一问题,本文提出了一种名为DROID-Splat的SLAM系统,结合了密集端到端光流和使用3DGS技术的密集渲染目标。本的系统在保留其SLAM系统灵活性的基础上,通过支持单目和RGBD推理,能够在消费级GPU上实现快速的跟踪推理,并能迅速优化出照片级真实感的场景重建。
DROID-Splat框架由三个主要部分组成:i) 端到端追踪 ii) 回环检测 iii) 可微分渲染 。作者还进一步结合了单目深度预测的最新进展,集成了当前的相机标定目标,展示了在未知相机内参的情况下,如何稳健地处理实际数据。该研究展示了通过结合密集端到端跟踪器与密集3DGS重建的方法,可以有效地重建视频中的场景,为SLAM技术的发展提供了新的视角。
▲图2|全文方法总览©️【深蓝AI】编译
本文旨在实现照片级真实感的密集场景重建。为此,作者采用了一个密集的端到端跟踪器,该跟踪器为每个像素提供可靠的深度(或视差)。通过对深度图进行滤波,仅保留共视点或高置信度区域,作者将处理后的数据输入渲染模块,该模块针对每个像素优化高斯超原型,并基于渲染目标对场景进行密集化。由于3DGS的轻量级特性,作者能够实时将该渲染目标与跟踪系统并行运行。该系统的整体框架通过整合常见的SLAM组件系统地构建,最终在统一的框架下实现了最先进的在线照片级真实感重建。
该系统结合了基于光流的目标进行端到端跟踪,并重建里程计和密集的初始地图。跟踪目标的灵活性使得系统能够根据需要优化相机内参或先验尺度与偏移。同时,采用最先进的3DGS技术,基于渲染目标学习照片级真实感的重建。由于所有组件都是可微分且能够并行运行,系统能够实现各部分的灵活互动。接下来,笔者将从端到端跟踪、闭环检测和可微分渲染三个方向,详细介绍具体的方法实现。
■2.1 端到端跟踪
该系统基于在线端到端系统DROIDSLAM构建。通过从有序的图像流构建一个帧图(V,E)。该结构实际上是一个关键帧缓冲区,存储着跟踪状态变量,如视差图和相机姿态。密集的光流通过递归神经网络估算。给定场景中足够的运动,将一个关键帧插入图中。边表示帧和帧 之间的共视性。随着图的动态构建和维护,系统对图进行可微分的束调整。通过当前的姿态和视差状态,可以计算对应关系。特征、图像上下文和隐藏状态被输入到卷积GRU中以生成更新。GRU生成残差场和关联的置信度。残差指导当前的对应关系,即。结合学习到的姿态估计置信度,这为可微分的束调整优化提供动力。跟踪基于重投影损失进行优化:
其中,。该通用损失函数可以灵活地用于监督视差和姿态,也可以优化相机参数θ:
这部分的内容涵盖比较多的数学公式,理解起来比较困难,笔者在这里进行通俗的讲解,简单来说,该系统中首先结合常见的视觉SLAM中的模块(关键帧提取,共视图构建)的方式,对输入的图像进行一次相机位姿追踪,通过做视觉SLAM的形式还原相机的位姿,并生成对应的深度信息,两个优化的函数分别是利用重投影误差以及深度作为监督,只是这里作者为了提升计算速度,直接将视差作为优化项代入了,减少了一步从视差到深度的换算。
■2.2 闭环检测
视觉里程计的准确性和鲁棒性不仅依赖于优化本身,特别依赖于前后端图结构。通过对潜在闭环候选点的长期连接运行更新操作,可以补偿累积的漂移。与基于递归流网络检测低明显运动的候选点的方法不同,本文通过直接的视觉相似性取得了更好的效果。该方法使用最新的端到端特征进行位置识别任务。对于每个到来的关键帧,计算其视觉特征并将其插入FAISS数据库。然后检查所有历史帧的最近邻。如果找到候选对,且满足特征距离、相机朝向距离和帧间距要求,则将其视为闭环候选,并通过向后端添加双向边来增强图结构。此过程在CPU上并行运行,附加的成本较低。
■2.3 可微分渲染
本文利用3DGS定义一组三维点 ,并将其与密集跟踪地图关联。每个高斯点具有旋转、缩放、密度和球面谐波系数。高斯点通过下采样后初始化,并通过反向传播在密集渲染损失上进行优化。渲染过程定义为:
其中,表示从球面谐波转换得到的颜色,。这使得能够在给定关键帧时渲染地图,并生成图像和深度图。3DGS利用混合渲染损失进行优化:
通过与参考图像和深度图的比较,进行反向传播。每次更新渲染器时,都通过优化一批相机来提高场景重建质量。由于每个组件都是可微分的,理论上可以通过渲染目标优化关键帧姿态,并将其反馈给跟踪器。研究表明,可以通过结合密集渲染目标进一步优化系统的性能。
这部分的内容也涉及到比较复杂的数学知识,笔者在这里也进行通俗的解释,可微分渲染的目的则是使用3DGS在渲染上的优势,实现实时的照片级渲染,而渲染过程中需要的两个重要参数,第一个是相机的位姿信息,这部分已经由端到端追踪模块通过做VSLAM获得了,第二个则是3DGS的内在属性,这会在算法运行的过程中不断优化更新,由于整个过程都是可微的,因此梯度可以很顺利的沿着网络进行回传,从而进一步提升整个算法框架的运行速度。
实验部分,作者主要对该研究定位精度,渲染质量以及深度估计这三个方面的性能进行了定性和定量的实验,充分说明了本问方法的可行性和有效性。
▲图3|消融实验©️【深蓝AI】编译
▲图4|渲染质量量化实验©️【深蓝AI】编译
图3和图4分别是消融实验以及渲染质量的量化实验,作者上来就进行消融实验的目的是在于本文中引入了诸多区别于传统方法的特色模块,这些特色模块在方法中的具体贡献则主要通过消融实验体现,从图3能够看出,通过模块的消融,很好的体现了每个特色模块(如回环检测,优化)对于本方法在精度,误差控制各个方向的贡献程度。图4则体现了本文在渲染过程中的高质量,在PSNR,LPIPS等各项指标上都能够取得不错的数值。
▲图5|公开数据集追踪精度实验©️【深蓝AI】编译
▲图6|对比实验©️【深蓝AI】编译
图5与图6则是在公开数据集上的追踪实验以及对比实验,图5可以看出在公开数据集上,本文方法能够取得非常不错的成绩,而对比实验则能够击败最近的一众SOTA方法,并且本文还有一个优势,就是可以免除相机参数标定的过程,这是其他方法都不具备的,这些实验不仅能够体现本文庞大的工作量,也能够体现本文方法出色的性能以及作者对于此工作的信心。
▲图7|深度可视化渲染©️【深蓝AI】编译
▲图8|深度恢复可视化实验©️【深蓝AI】编译
图7与图8则为主要是围绕着深度恢复展开的实验,3DGS和NeRF等方法在渲染时虽然能够恢复很好的物体表面RGB和纹理,但是对于深度的估计可谓是一团糟,毕竟缺少直接针对深度的监督手段,而SLAM的加入则很大程度上改进了这一缺陷,因此从图7可以看出,即便是渲染的新视角场景,深度的恢复也相当不错,而图8则能够进一步通过Ground Truth作为参考,非常清晰的体现了本文方法在深度恢复方面具备的突出优势。
该研究将密集的端到端SLAM系统与照片级真实感渲染器相结合,并系统地分析了常见的设计选择。在常见的基准测试中,作者的框架达到了最先进的结果。通过集成最新的单目深度先验,成功地缩小了单目和RGBD SLAM之间的差距,无论是在里程计还是渲染方面。实验表明,在这一层次上,照片级真实感渲染和精确几何重建可以作为互补目标进行优化,其中提升渲染性能会以几何精度的下降为代价。同时,基于渲染目标的优化并未在自然场景中显著提升跟踪器的性能。该框架具有灵活性,能够无缝地重建具有未知内参的实际视频。
展望未来,研究者希望该Python框架能够促进神经网络与SLAM结合的快速实验和进一步研究。近期的基础模型允许直接从图像推断三维场景,而无需测试时优化。集成这类模型为未来的研究提供了一个令人兴奋的方向。此外,将系统扩展到更大、更复杂的场景也是一个有趣的方向。
Ref:
DROID-Splat Combining end-to-end SLAM with 3D Gaussian Splatting
编
译|阿豹
审核|cc
【3D视觉之心】技术交流群
3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
扫码添加小助理进群
【3D视觉之心】知识星球
3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。