NeRF-VO:实时稀疏视觉里程计与基于NeRF的稠密重建

论文标题:

NeRF-VO: Real-Time Sparse Visual Odometry with Neural Radiance Fields

论文作者:
Jens Naumann,Binbin Xu,Stefan Leutenegger,Xingxing Zuo,∗Technical University of Munich,University of Toronto

导读: 本文提出一种新型神经视觉里程计系统,结合了基于学习的稀疏视觉里程计、单目深度预测网络,进行基于神经辐射场优化,同时调整位姿和稠密地图。本系统展现优越的位姿估计精度,并提供高质量的稠密建图,同时保持较低的位姿跟踪延迟和GPU 内存消耗。©️【深蓝AI】编译

1. 摘要

本文引入一个新颖的单目视觉里程计系统,集成了基于学习的稀疏视觉里程计,该视觉里程计主要用来低延迟相机追踪,以及一个针对复杂稠密重建和新视角图像合成的神经辐射场景表示。此系统使用稀疏视觉里程计,以及来自于一个单目深度预测网络的稠密几何先验知识,来初始化相机的位姿。本文中的方法协调了位姿的尺度和稠密的几何先验的尺度,将它们作为监督线索来训练神经隐式场景表示。NeRF-VO 通过联合优化关键帧位姿的滑动窗口和底层稠密几何,在场景表示的光度和几何保真度方面都表现出卓越的性能。在各种合成和真实世界数据集上,本文方法在位姿估计精度、新颖视图合成保真度和稠密重建质量方面都超越了最先进的方法,同时实现了更高的相机跟踪频率和更少的 GPU 内存消耗。

▲图1|在Replica数据集上实施3D重建和相机追踪的结果©️【深蓝AI】编译

▲图1|在Replica数据集上实施3D重建和相机追踪的结果©️【深蓝AI】编译

2. 引言

在3D计算机视觉和各种机器人、混合现实应用中,仅仅使用场景的图像信息,实现准确位姿估计和3D场景重建,都是极具挑战的。此前就已证明过:神经辐射场(NeRF)是解决新颖视角图像合成任务的重要场景表示方法。原始的NeRF使用巨大的多层感知机(MLPs),将3D坐标和光线方向分别编码成体积密度和颜色。然而,它无法表示复杂且巨大的场景,尤其是具备详细细节的场景。对使用深度多层感知机的NeRF,进行训练和渲染都是极其耗时且消耗计算量的。

近几年的各项研究工作则致力于解决这一问题——试图加速NeRF,通过更加高效的神经表示来替换深度MLPs。例如,通过使用一个混合的表示,Instant-NGP得到了持续的加速,这一表示将可训练的多尺度哈希编码(MHE)和共享浅层MLPs进行了结合。这些通过加速的神经辐射场景模型,打开了实时敏 感的SLAM/VO技术的新大门。

基于 NeRF 的场景表示,可实现高保真的光度和几何重建,并对一些未观察到的区域提供合理的估计,同时具有很高的内存效率。这些表示能够全面使用,来自于原始图像的信息。使用视觉体积渲染,每个像素都能够在场景优化过程中得到应用。这也就具备超越传统的方法的潜力,例如:直接和非直接SLAM方法。之后,大量工作旨在将神经隐式建图同SLAM进行集合。但是,仅有小部分方法聚焦于单目RGB输入。基于准确度的考量,仅有RGB输入的方法落后于RGB-D输入的方法,尤其是在深度重建任务上。此外,无论输入模式如何,这些方法大多计算成本高昂,缺乏实时性,而且需要大量 GPU 内存。

为了解决这些问题,本文提出了NeRF-VO,一种具有神经隐式稠密建图功能的实时稀疏视觉里程计。其性能分析如图1所示。本文使用基于低延迟学习的稀疏视觉里程计,获得初始位姿估计和三维稀疏地标。然后使用基于transformer的神经网络推断出最高尺度的稠密几何线索,包括单目稠密深度和法线。有了初始位姿、相机捕捉的单目图像和粗略的稠密几何先验,NeRF-VO就能有效优化隐式表示三维场景的神经辐射场。通过最小化捕捉到的图像和预测的稠密几何线索与神经辐射场生成的渲染图之间的差异,就能恢复场景的精确位姿和稠密几何图形。因此,本文提出的NeRF-VO由三个主要部分组成:稀疏视觉跟踪前端、稠密几何增强模块和基于NeRF的稠密建图后端。系统架构如图2所示。

▲图2|NeRF-VO系统架构©️【深蓝AI】编译
▲图2|NeRF-VO系统架构©️【深蓝AI】编译

3. 相关工作

■3.1 基于学习的视觉追踪

本文的工作重点是使用来自校准摄像机的 RGB 图像序列进行单目视觉里程测量,该技术可估算出每个输入帧的摄像头位置和方向。与 SLAM 不同的是,视觉里程计侧重于连续帧之间的局部一致性,而不包括 SLAM 的闭环优化或全局调整。最近,VO 方法已从传统的手工特征检测和匹配模块发展到基于深度学习的方法,从而提高了准确性和鲁棒性。其中,DROIDSLAM和DPVO是两个值得关注的作品,它们利用神经网络预测连续图像之间的光流,并迭代更新相机位姿。DPVO是一般SLAM系统前端的基础,因为它既高效又准确。

■3.2 稠密视觉SLAM

稠密视觉SLAM的目的是构建环境的稠密3D表示,而不是稀疏的3D地标。在第一个实时稠密视觉工作 DTAM之后,又提出了许多方法,主要是利用单目深度预测的方法。这些工作中选择的场景表示也从体积表示发展到低维潜在表示和集成预训练深度估计器。在这项工作中,本文选择体积神经辐射场作为表征,因为它具有显著的光度和几何精度。

■3.3 基于NeRF的SLAM

最近,许多工作提出将基于 NeRF的神经隐式表征集成到 SLAM 中。一般来说,现有方法可分为单阶段和双阶段方法。双阶段方法使用现有的SLAM算法作为跟踪模块来估算深度图和摄像机位姿,然后将这些估算作为监督信号来优化隐式神经表征,OrbeezSLAM和NeRF-SLAM等早期方法证明了这种组合的有效性。这一方向的最新进展是进一步引入了以视图为中心的隐函数、全局闭环和单目深度先验,以提高位姿估计精度和稠密建图质量。iMAP和NICE-SLAM利用RGB-D数据为这一方向奠定了基础。随后的工作旨在增强场景表示、引入隐式语义编码和整合惯性测量。在这些工作中,NICERSLAM和 DIM-SLAM仅使用单目图像执行稠密SLAM。NICER-SLAM以高保真场景重建和新颖视图合成为目标,通过大量的优化和各种损失来实现,但不适合实时应用。

4. 稀疏视觉位姿追踪

本文采用深度补丁视觉测距(DPVO)算法作为跟踪前端。DPVO 是一种基于学习的稀疏单目、基于学习的算法,可估计摄像机位姿和每个关键帧中一组补丁的稀疏深度。

■4.1 Patch Graph:

给定RGB帧序列后,DPVO会在每个关键帧随机采样一组大小为sssKKK个正方形补丁,并将它们添加到连接补丁和帧的双向补丁图中。例如,取自于第iii帧的第kkk个方块补丁可以表示为Pki=[u,v,l,d]TP_k^i = [u, v, l, d]^TPki=[u,v,l,d]T,并且通过边与iii帧周围的所有帧相连接。u,vu,vu,v标表示像素坐标,ddd表示逆深。这一补丁假定每个补丁的深度均匀一致,则重投影的定义为:

Pkij∼KTjTi−1PkiP_ {k}^ {ij}\sim KT_ {j}T_ {i}^ {-1}P_ {k}^ {i}PkijKTjTi1Pki

其中,KKK是摄像机校准矩阵,Ti∈SE(3)T_i \in SE(3)TiSE(3)表示第iii帧的世界到摄像机变换。

■4.2 可微调的集束调整:

DPVO 的关键部分是其可变位姿和深度更新算子,递归神经网络对具有一组边缘EEE的光斑图进行操作,同时为每条边缘(k,i,j)∈E(k,i,j) \in E(k,i,j)E(光斑-帧对)保持一个隐藏状态,并为光斑中心的每次重投影预测一个二维校正向量δδδ,同时预测一个相应的置信度权重ψψψ。通过非线性最小二乘优化,将光流校正作为迭代更新帧位姿和光斑深度的约束条件,进行集束调整。光束调整的成本函数为:
∑(k,i,i)∈ε∣KTjTi−1K−1Pki→−[Pk→i+ski]ψkij2\sum\limits_{(k,i,i) \in \varepsilon} |KT_ {j} T_ {i}^ {-1} K^ {-1}\overrightarrow {Pk_ {i}} - [\overrightarrow {P_ {k}}^ {i}+s_ {k}^ {i}]^ {2}_ {\psi_k^{ij}}(k,i,i)εKTjTi1K1Pki [Pk i+

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值