导读: 本篇提出了一种在结构化隐式表示中实现同时建图和位姿估计的流程,它采用多尺度神经特征场来实现分层位姿估计与建图。结果表明,本文方法能够在实现精确定位的同时,对大规模环境保持高建图质量。
©️【深蓝AI】编译
论⽂题目:Hierarchical Pose Estimation and Mapping with Multi-scale Neural Feature Fields
论文作者:Evgenii Kruzhkov,Alena Savinykh,Sven Behnke
论文地址:https://arxiv.org/pdf/2412.20976
1、摘要
机器人应用需要对场景具有全面理解。近年来,基于神经场的方法已经越来越流行,它们参数化整个环境。由于这些方法的连续性及其学习场景先验的能力,它们很有前景。然而,当处理未知的传感器位姿和顺序测量时,神经场在机器人中的使用变得具有挑战性。
本文主要研究大规模神经隐式SLAM中的传感器位姿估计问题。本文从概率的角度研究隐式建图,并且提出了基于相应神经网络架构的分层位姿估计。本文方法非常适用于大规模隐式地图表示。所提出的方法在连续室外激光雷达扫描上运行并且实现了精确的位姿估计,同时维持了短距离轨迹和长距离轨迹的稳定建图质量。本文在适合大规模重建的结构化且稀疏的隐式表示上构建了所提出的方法,并且使用KITTI和MaiCity数据集对其进行评估。本文方法在使用未知位姿进行建图方面优于基线,并且实现了最先进的定位精度。
2、介绍
位姿估计和建图是对移动机器人、自动驾驶汽车、虚拟现实和计算机视觉有重大影响的基本任务。这两项任务是密切相关的,因为一项任务的质量会影响另一项任务的质量。组合任务通常称为同时定位和建图(SLAM)。近年来,研究者探索了使用精确位姿估计实现高质量且高效建图的新方法。
尽管SLAM已经取得了重大进展,但是仍然有必要开发新的方法来满足对质量和泛化能力日益增长的需求。例如,稀疏方法生成的地图适用性(主要用于定位)有限,这是因为它们无法表示稠密表面。另一方面,稠密地图和半稠密地图能够获取更多的信息和更精细的细节,从而允许进一步实现大量的下游任务。然而,它们需要更多的计算资源,并且由于其离散性,仍然具有有限的表示能力。
如今,很多机器人应用需要对环境有更深入的了解,这就需要开发新的综合地图。为了解决这个问题,一些工作在场景中引入了参数化元素(门、平面、小物品等)。然而,这些方法仅能参数化一部分的场景目标,这对某些场景而言足够了,但是并不能提供通用的解决方案。
最近,神经辐射场(NeRF)在科学界引起了广泛关注。尽管这些方法大多依赖于实时机器人应用无法获得的真值位姿,但是它们仍然具有有用的性质。例如,神经场可以参数化整个场景,从平面几何到细粒度细节。此外,该表示还能够轻松地扩展到场景理解的其它级别。图1展示了所提出方法实现的语义建图,该方法被增强以表示语义信息以及3D几何。
▲图1|展示了将所提出的隐式建图扩展到语义领域的灵活性。使用来自SemanticKITTI的连续激光雷达测量和对应语义标签来构建地图©️【深蓝AI】编译
本文提出了用于机器人应用的神经隐式表示的研究现状。具体而言,本文着重于大规模环境的隐式表示和神经场内的同时位姿估计。本文提供了隐式建图的概率解释,并且引入了基于连续激光雷达数据的由粗到精的位姿优化,用于大规模神经场地图,从而能够在街道规模的环境中运行。
总之,本文的贡献总结如下:
1)本文从概率解释的角度提出了结构化稀疏隐式建图和位姿估计方法;
2)本文提出了基于八叉树地图结构的分层位姿优化方法;
3)本文相对于最先进的方法,评估了所提出的方法。
3、方法
本节描述了所提出方法的组成部分。首先,介绍了所提出方法的概率解释。然后,深入讨论了所提出的神经网络架构。最后,本文以分层、由粗到精的方式介绍了位姿估计的细节。
图2展示了本文方法的核心组成部分。本文使用3D激光雷达数据