浙江大学新作：利用BEV表示减少单目视觉里程计中的尺度漂移

本文链接：https://blog.youkuaiyun.com/soaring_casia/article/details/144537310

导读：本篇提出了一种利用鸟瞰图（BEV）表示来解决尺度漂移问题的新型单目视觉里程计（MVO）框架。该框架在广泛使用的NCLT、Oxford和KITTI数据集上进行大量实验，以验证所提出方法的有效性。结果表明，本文方法在所有数据集上均获得了优越的性能。

©️【深蓝AI】编译

论文名称：BEV-0DOM: Reducing Scale Drift in Monocular Visual Odometry withBEV Representation

论文作者：Yufei Wei, Sha Lu, Fuzhang Han, Rong Xiong, Yuc Wang

论文地址：https://arxiv.org/pdf/2411.10195

1.摘要

单目视觉里程计（MVO）在自主导航和机器人中至关重要，它提供了一种成本有效且灵活的运动跟踪解决方案，但是单目设置中固有的尺度模糊往往会导致误差随时间累积。本文提出了BEV-ODOM，这是一种利用鸟瞰图（BEV）表示来解决尺度漂移的新型MVO框架。与现有方法不同，BEV-ODOM将基于深度的透视图（PV）集成到BEV解码器、关联特征提取颈部和基于CNN-MLP的解码器中，使其能够估计三自由度的运动而不需要深度监督或者复杂的优化技术。本文框架减少了长期序列中的尺度漂移，并且在各种数据集（包括NCLT、Oxford和KITTI）上实现了精确的运动估计。结果表明，BEV-ODOM优于当前的MVO方法，展现出更小的尺度漂移和更高的精度。

2.介绍

单目视觉里程计（MVO）因其成本效益一直受到关注，是机器人和自动驾驶领域中的一种有效解决方案。作为一种经济且易于部署的导航辅助工具，MVO可以作为GPS和惯性导航系统的补充。然而，尽管MVO具有诸多优势，其广泛应用却受制于一个关键问题：尺度模糊。由于缺乏完整的深度信息，单目系统通常只能在相对尺度上估计运动。

传统的MVO方法，包括基于特征的方法、半直接方法和直接方法，通常在初始化时确定一个尺度，并将其作为全局参考。这种方法将尺度估计与初始运动紧密结合，因此跟踪性能对启动时的运动速度非常敏感。此外，这些方法严重依赖初始尺度设置，导致随着时间推移出现明显的尺度漂移问题。

基于学习的MVO方法利用机器学习的强大拟合能力来建模训练数据中的先验分布。有些工作使用卷积神经网络（CNNs）从图像中自动提取特征，并且基于时间建模方法对位姿进行回归。此外，另外一些工作将传统方法的可解释性与深度学习的强大数据拟合能力相结合。这些方法将深度学习融入到绝对尺度恢复和特征点选择等步骤中，以实现绝对尺度并且增强匹配鲁棒性。为了实现高精度的深度估计，这些方法通常引入额外的深度监督或光流监督，但这也带来了额外的计算开销。

近年来，随着透视-鸟瞰视角（BEV）转换技术的进步，以及BEV表示在3D检测和场景分割中的出色性能，一些工作已经开始尝试使用BEV表示来实现视觉里程计。使用BEV表示的目的在于利用自动驾驶中的地平面假设来简化六自由度（6-DoF）里程计估计问题。然而，这些方法仍局限于在BEV表示下处理其他3D任务，通常需要先进行场景分割，再基于分割结果估计位姿。这些方法引入了额外的副任务监督，且依赖于高质量的分割结果，这不仅导致标签获取成本上升，也未能充分利用BEV表示提供的直接信息。

为了克服上述问题，本文提出了BEV-ODOM，一种新型的基于BEV表示的MVO方法。与其他框架的比较如图1所示。

▲图1｜MVO方法的比较©️【深蓝AI】编译

我们的框架由以下几部分组成：基于深度的透视图到鸟瞰图编码器，用于评估不同偏移量的两个BEV之间相似性的关联特征提取模块，以及集成卷积神经网络（CNNs）和多层感知器（MLPs）的解码器，用于估计三自由度（3-DoF）的运动。与现有的基于学习的MVO方法不同，我们的方法无需Bundle Adjustment、位姿图优化以及其他辅助任务。与其他依赖于BEV表示的视觉里程计方法不同，我们的方法不依赖于BEV地图或占用地图中的分割结果来估计位姿，也不需要额外的监督。这一简化不仅提升了方法的效率，还避免了不准确的分割结果对MVO的负面影响，从而降低了数据采集成本。通过充分利用BEV表示的尺度一致性和精细的特征提取能力，我们的方法在具有挑战性的地面运动数据集上表现出优异的尺度一致性，并在当前的MVO方法中实现了最先进的（SOTA）性能。

本项工作的贡献如下：

1）本文提出了一种利用BEV表示的新型MVO框架，它有效地解决了尺度漂移问题，并且实现了更好的精度；

2）本文方法简化了利用BEV表示实现基于学习的MVO流程，消除了对深度估计、分割和占用地图生成等辅助任务的监督需求，从而提高了其效率和鲁棒性；

3）本文方法在具有挑战性的数据集上实现了当前MVO方法中SOTA性能。

3.方法

BEV-ODOM提出了一种利用BEV表示固有尺度一致性来进行运动估计的MVO方法。该方法除了视觉输入和位姿监督外，不需要额外的模块。处理过程首先从透视视角（PV）图像中提取特征，接着通过视锥映射的方法将这些特征投影到BEV平面。然后，通过计算两个帧之间在不同位移下对应BEV特征的相关性，提取两帧之间的相对运