多尺度神经特征场:实现精确定位与大规模高质建图

导读: 本篇提出了一种在结构化隐式表示中实现同时建图和位姿估计的流程,它采用多尺度神经特征场来实现分层位姿估计与建图。结果表明,本文方法能够在实现精确定位的同时,对大规模环境保持高建图质量。

©️【深蓝AI】编译

论⽂题目:Hierarchical Pose Estimation and Mapping with Multi-scale Neural Feature Fields

论文作者:Evgenii Kruzhkov,Alena Savinykh,Sven Behnke

论文地址:https://arxiv.org/pdf/2412.20976

1、摘要

机器人应用需要对场景具有全面理解。近年来,基于神经场的方法已经越来越流行,它们参数化整个环境。由于这些方法的连续性及其学习场景先验的能力,它们很有前景。然而,当处理未知的传感器位姿和顺序测量时,神经场在机器人中的使用变得具有挑战性。

本文主要研究大规模神经隐式SLAM中的传感器位姿估计问题。本文从概率的角度研究隐式建图,并且提出了基于相应神经网络架构的分层位姿估计。本文方法非常适用于大规模隐式地图表示。所提出的方法在连续室外激光雷达扫描上运行并且实现了精确的位姿估计,同时维持了短距离轨迹和长距离轨迹的稳定建图质量。本文在适合大规模重建的结构化且稀疏的隐式表示上构建了所提出的方法,并且使用KITTI和MaiCity数据集对其进行评估。本文方法在使用未知位姿进行建图方面优于基线,并且实现了最先进的定位精度。

2、介绍

位姿估计和建图是对移动机器人、自动驾驶汽车、虚拟现实和计算机视觉有重大影响的基本任务。这两项任务是密切相关的,因为一项任务的质量会影响另一项任务的质量。组合任务通常称为同时定位和建图(SLAM)。近年来,研究者探索了使用精确位姿估计实现高质量且高效建图的新方法。

尽管SLAM已经取得了重大进展,但是仍然有必要开发新的方法来满足对质量和泛化能力日益增长的需求。例如,稀疏方法生成的地图适用性(主要用于定位)有限,这是因为它们无法表示稠密表面。另一方面,稠密地图和半稠密地图能够获取更多的信息和更精细的细节,从而允许进一步实现大量的下游任务。然而,它们需要更多的计算资源,并且由于其离散性,仍然具有有限的表示能力。

如今,很多机器人应用需要对环境有更深入的了解,这就需要开发新的综合地图。为了解决这个问题,一些工作在场景中引入了参数化元素(门、平面、小物品等)。然而,这些方法仅能参数化一部分的场景目标,这对某些场景而言足够了,但是并不能提供通用的解决方案。

最近,神经辐射场(NeRF)在科学界引起了广泛关注。尽管这些方法大多依赖于实时机器人应用无法获得的真值位姿,但是它们仍然具有有用的性质。例如,神经场可以参数化整个场景,从平面几何到细粒度细节。此外,该表示还能够轻松地扩展到场景理解的其它级别。图1展示了所提出方法实现的语义建图,该方法被增强以表示语义信息以及3D几何。

▲图1|展示了将所提出的隐式建图扩展到语义领域的灵活性。使用来自SemanticKITTI的连续激光雷达测量和对应语义标签来构建地图©️【深蓝AI】编译

本文提出了用于机器人应用的神经隐式表示的研究现状。具体而言,本文着重于大规模环境的隐式表示和神经场内的同时位姿估计。本文提供了隐式建图的概率解释,并且引入了基于连续激光雷达数据的由粗到精的位姿优化,用于大规模神经场地图,从而能够在街道规模的环境中运行。

总之,本文的贡献总结如下:

1)本文从概率解释的角度提出了结构化稀疏隐式建图和位姿估计方法;

2)本文提出了基于八叉树地图结构的分层位姿优化方法;

3)本文相对于最先进的方法,评估了所提出的方法。

3、方法

本节描述了所提出方法的组成部分。首先,介绍了所提出方法的概率解释。然后,深入讨论了所提出的神经网络架构。最后,本文以分层、由粗到精的方式介绍了位姿估计的细节。

图2展示了本文方法的核心组成部分。本文使用3D激光雷达数据作为输入来训练所提出的网络架构,以表示具有不同细节程度的地图。

▲图2|所提出方法概览©️【深蓝AI】编译

3.1 建图

本文通过带有噪声的传感器测量来获得有关环境的信息。本文认为环境是测量噪声值的概率密度函数(PDF)。本文采用基于神经场的模型来近似环境的PDF。为了学习该模型,本文最小化近似PDFs和真实PDFs之间的KL散度,分别表示为$q(x,w)$$p(x)$。最小化$D_{KL}$等价于最小化交叉熵和最大化$q(x,w)$的对数似然:

其中,$w$表示神经场模型的权重,$x$为3D空间坐标,$N$为采样点的数量。本文假设传感器测量$y(x_i)$具有平均值$\mu$和方差$\sigma^2$的正态分布噪声。那么测量的环境具有正态分布PDF:

将公式(2)带入公式(1),似然最大化变成均方根误差最小化(RMSE)问题:

​3.2 网络架构

本文采用传入MLPs的可学习F维特征作为神经场表示。这些特征存储在八叉树结构中。尽管最终的重建结果是一个稠密的SDF,但是八叉树仅稀疏地存储激光雷达测量的体素的可学习特征。本文使用不同的八叉树级别,并且显式地训练它们以学习环境的粗略、中级和精细表示。


首先,每一层是独立的,并且有各自的MLP神经网络。该层的可学习特征与查询点的空间坐标相结合作为网络的输入,推断该点的占用概率。组合特征基于观测相连接,与平均和总输入减少相比,会获得更好的预测质量。


其次,在建图过程中,每个MLP都被显式地引导来表示其层次的细节。为了实现这一点,未激活所有层,除了最粗略的层用于公式(3)优化的首次迭代。然后,以相等的迭代间隔逐一激活更精细的层及其相应的MLPs。新激活层的预测结果被加入到较粗略的层中,引导学习更精细的细节。本文在每一建图步骤中遵循这一技术。


最后,将所有层的预测结果累加,以获得最终地图的低频和高频细节信息。图3展现了粗略层预测和最终预测之间的差异。粗略层表示粗糙的几何结构,而更精细的层获取高频细节信息,从而在将它们结合时提高了地图质量。通过所提出的技术,更精细层的预测结果被引导来补充更粗略层的预测结果,而无需冗余地学习先前层的几何表示。

▲图3|使用所提出的方法学习粗略和精细表示©️【深蓝AI】编译

本文观察到,如果输入测量是稠密且近的测量具有足够的密度,则更精细的八叉树层能够防止灾难性遗忘。此外,近的测量与过去观测建图的环境重叠。因此,对近的激光雷达测量和远的激光雷达测量的灾难性遗忘有不同的处理方式。对于远的点,通过正则化可学习层的特征来解决该问题:

其中,$\mathbf w^t$$\mathbf w^{t-1}$分别表示当前和先前收敛层的特征,$\Omega$为重要性权重,$\gamma_k$$k$层正则化权重。本文将更高的权重$\gamma_k$用于粗略层以防止遗忘整个几何结构,将更小的权重用于精细层以允许更新细节信息。

对于近的测量,通过稀疏地重建在精细层采样的点并且随后将它们作为回放数据加入到测量值中来正则化外部八叉树体素,从而使用隐式表示的分层结构。该层特征和MLPs联合训练的最终损失为:

本文观察到,由于八叉树架构的稀疏特性,可以将其扩展到其它域,而不会大幅增加消耗的内存。为了生成语义地图,本文使用编码的语义标签扩展了输入的维度,增加了存储在八叉树中的特征规模,并且优化了模型以重建编码的语义标签和几何结构。

3.3 位姿估计

本文通过优化神经场中的传感器位姿来执行同时定位。有了环境的近似$q(x,w)$和当前测量$y(x_i)$,优化传感器位姿$T_i$,其用于将测量从传感器的局部坐标投影到全局坐标。该优化的意义在于,找到传感器观测对应于建图环境$q(x,w)$(具有最小的RMSE)的传感器位置。本文使用先前估计的位姿$T_{i-1}$作为每一新优化步骤的初始位姿。


在前向传递过程中,根据采样点$x$在其体素内的相对位置对每个八叉树层的特征进行加权,然后将其传递给网络:

其中,$z_j$表示加权的第$j$个角点特征,$h_j$为角点的F维特征,$x_s$为按照该层的网格分辨率缩放的采样点位置。


同一体素的加权特征被连接起来,并且传入对应的MLP模型中。利用这种结构,可以通过$y(x_i)$将梯度直接传递给传感器位姿。


本文还采用所提出的分层架构,并且执行由粗到精的位姿估计。首先,通过粗略层执行粗略的位姿估计。然后,逐步激活精细层,通过更细致的地图来细化位姿。根据观测,当以由粗到精的方式执行时,位姿优化更稳定。最终的位姿估计包括同时执行直接优化和由粗到精的优化。

4、实验

本文在KITTI数据集中评估了所提出的分层位姿估计的精度,该数据集包含不同长度的室外激光雷达序列。为了评估定位精度,本文使用了绝对轨迹误差(ATE)。本文还使用合成的MaiCity数据集衡量了位姿估计对建图质量的影响。

在整个实验过程中,本文使用统一的参数进行定位和建图。本文设置特征维度F=3,并且使用3个八叉树层。所有MLPs都有2个隐藏层,每个隐藏层有32个神经元。

本文方法需要50次迭代来建图。对于位姿估计,本文设置了80次迭代:20次迭代用于粗略估计,20次迭代激活中间层,剩下的40次迭代激活所有层。

 4.1位姿估计

本实验的目的是验证所提出的方法能够在整个序列中进行连续定位,并且具有良好且稳定的精度。本文将其性能与点到平面ICP和最先进的KISS-ICP进行了比较。这些方法的参数对于所有序列均是固定的。

结果如表格1所示。

▲表1|在KITTI数据集上的定位质量估计©️【深蓝AI】编译

所提出的方法优于ICP,与最先进的KISS-ICP相当。基于实验结果,本文方法可以为短序列(序列03和序列07)和长序列(序列00和序列05)提供一致的定位结果。

图4展示了在每个序列上估计的轨迹和真值数据。

▲图4|所提出的方法在KITTI数据集上估计的轨迹©️【深蓝AI】编译

如上图,估计的轨迹通常精确贴合真值。进一步分析表明,大多数残差来自俯仰角周围姿态优化的不准确。

所提出的方法具有处理先前访问过的位置的良好能力。例如,序列00和序列05中的轨迹在位置被多次访问时具有更高的精度。因此,本文方法可以成功重定位,并且在重新访问环境时减少定位误差。如图5所示,一条街道在同一方向上被遍历两次。对应的轨迹以不同颜色表示。蓝色轨迹对应于第二次遍历,并且收敛到绿色显示的第一次访问。

▲图5|重新访问先前建图的区域©️【深蓝AI】编译

4.2建图

该实验在MaiCity数据集的短序列和长序列上验证了地图的质量。本文将所提出的方法与SHINE-Mapping相比较。表格2展示了在精度(Acc.)、完成度(Comp.)和倒角距离(C-L1、C-L2)方面的比较结果。

▲表2|在MaiCity数据集上的建图质量结果©️【深蓝AI】编译

本文以顺序的方式将激光雷达数据传入算法中,这是因为在实时运行的情况下,未来的测量结果是未知的。SHINE-Mapping是一种纯建图方法,因此它使用真值位姿来推断地图。

根据表格2,对于短序列01,本文方法相比于SHINE-Mapping的变体实现了更精确的建图结果。这是因为SHINE-Mapping是一种需要同时获取所有测量才能实现最佳结果的重建方法,而本文方法最初设计用于处理每一时刻的顺序数据并且受益于分层优化。正如预期那样,对于长序列00,本文方法的重建质量略低于SHINE-Mapping,但是两种方法的精度值仍然接近。较长序列中的建图误差增加是由累积定位误差导致的。然而,本文方法的建图精度在短序列和长序列中都有相似值。这些突出了所提出的位姿估计方法在不同长度序列中的稳定性。

根据实验结果,SHINE-Mapping和本文方法均能够提供精确的地图。然而,SHINE-Mapping质量取决于第三方算法估计的定位精度,而所提出的方法具有稳定的内置定位。

​4.3 实时运行讨论

本文方法的效率主要取决于环境的大小、每次建图和跟踪的优化步数以及当前测量的数据量。本实验在配备NVIDIA GeForce RTX 3070 Ti和16GB RAM内存的笔记本电脑上估计时间效率,请注意现代自主机器人能够拥有更强大的计算资源。对于大型KITTI序列(约4000米),本文使用13层的八叉树,最精细层的分辨率为0.25米。在这种条件下,本文方法可以在3fps的频率下运行。对于更小的环境(约50米),使用10层的八叉树,最精细层的分辨率为0.05米,本文方法可以在5fps的频率下运行。

通过调整每个特定情况的参数,可以进一步提升性能。归功于稀疏八叉树结构、深度引导的训练和避免成本高昂的体渲染,实现了高效的运行。

5、总结

本项工作提出了一种在结构化隐式表示中实现同时建图和位姿估计的流程。所提出的神经网络架构(包括在不同层次上训练八叉树中的特征并且遵循分层位姿优化)是实现大规模但细致的地图的核心,它无需真值位姿。本文方法适用于现实世界激光雷达数据流,并且以每秒3-5帧的速度运行。

本文在公开数据集上评估了所提出的方法。结果表明,本文方法能够在实现定位的同时,对于大规模环境保持高建图质量。在KITTI数据集中验证的定位精度与KISS-ICP所展现的最先进的性能相当。

为了验证建图质量,本文在MaiCity数据集上将所提出的方法与最先进的重建基线方法进行比较。实验结果表明,当使用连续的激光雷达数据时,本文方法的建图质量更优。

Ref:

Hierarchical Pose Estimation and Mapping with Multi-scale Neural Feature Fields

编译|auto_driver

审核|apr

内容概要:本文围绕“基于数据驱动的 Koopman 算子的递归神经网络模型线性化,用于纳米定位系统的预测控制研究”展开,提出了一种结合Koopman算子理论递归神经网络(RNN)的数据驱动模方法,旨在对非线性纳米定位系统进行有效线性化模,并实现高精度的模型预测控制(MPC)。该方法利用Koopman算子将非线性系统映射到高维线性空间,通过递归神经网络学习系统的动态演化规律,构可解释性强、计算效率高的线性化模型,进而提升预测控制在复杂不确定性环境下的鲁棒性跟踪精度。文中给出了完整的Matlab代码实现,涵盖数据预处理、网络训练、模型验证MPC控制器设计等环节,具有较强的基于数据驱动的 Koopman 算子的递归神经网络模型线性化,用于纳米定位系统的预测控制研究(Matlab代码实现)可复现性和工程应用价值。; 适合人群:具备一定控制理论基础和Matlab编程能力的研究生、科研人员及自动化、精密仪器、机器人等方向的工程技术人员。; 使用景及目标:①解决高精度纳米定位系统中非线性动态响应带来的控制难题;②实现复杂机电系统的数据驱动预测控制一体化设计;③为非线性系统控制提供一种可替代传统机理模的有效工具。; 阅读议:议结合提供的Matlab代码逐模块分析实现流程,重点关注Koopman观测矩阵构造、RNN网络结构设计MPC控制器耦合机制,同时可通过替换实际系统数据进行迁移验证,深化对数据驱动控制方法的理解应用能力。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值