浙江大学新作:利用BEV表示减少单目视觉里程计中的尺度漂移

导读: 本篇提出了一种利用鸟瞰图(BEV)表示来解决尺度漂移问题的新型单目视觉里程计(MVO)框架。该框架在广泛使用的NCLT、Oxford和KITTI数据集上进行大量实验,以验证所提出方法的有效性。结果表明,本文方法在所有数据集上均获得了优越的性能。

©️【深蓝AI】编译

论文名称:BEV-0DOM: Reducing Scale Drift in Monocular Visual Odometry withBEV Representation

论文作者:Yufei Wei, Sha Lu, Fuzhang Han, Rong Xiong, Yuc Wang

论文地址:https://arxiv.org/pdf/2411.10195

1.摘要

单目视觉里程计(MVO)在自主导航和机器人中至关重要,它提供了一种成本有效且灵活的运动跟踪解决方案,但是单目设置中固有的尺度模糊往往会导致误差随时间累积。本文提出了BEV-ODOM,这是一种利用鸟瞰图(BEV)表示来解决尺度漂移的新型MVO框架。与现有方法不同,BEV-ODOM将基于深度的透视图(PV)集成到BEV解码器、关联特征提取颈部和基于CNN-MLP的解码器中,使其能够估计三自由度的运动而不需要深度监督或者复杂的优化技术。本文框架减少了长期序列中的尺度漂移,并且在各种数据集(包括NCLT、Oxford和KITTI)上实现了精确的运动估计。结果表明,BEV-ODOM优于当前的MVO方法,展现出更小的尺度漂移和更高的精度。

2.介绍

单目视觉里程计(MVO)因其成本效益一直受到关注,是机器人和自动驾驶领域中的一种有效解决方案。作为一种经济且易于部署的导航辅助工具,MVO可以作为GPS和惯性导航系统的补充。然而,尽管MVO具有诸多优势,其广泛应用却受制于一个关键问题:尺度模糊。由于缺乏完整的深度信息,单目系统通常只能在相对尺度上估计运动。

传统的MVO方法,包括基于特征的方法、半直接方法和直接方法,通常在初始化时确定一个尺度,并将其作为全局参考。这种方法将尺度估计与初始运动紧密结合,因此跟踪性能对启动时的运动速度非常敏感。此外,这些方法严重依赖初始尺度设置,导致随着时间推移出现明显的尺度漂移问题。

基于学习的MVO方法利用机器学习的强大拟合能力来建模训练数据中的先验分布。有些工作使用卷积神经网络(CNNs)从图像中自动提取特征,并且基于时间建模方法对位姿进行回归。此外,另外一些工作将传统方法的可解释性与深度学习的强大数据拟合能力相结合。这些方法将深度学习融入到绝对尺度恢复和特征点选择等步骤中,以实现绝对尺度并且增强匹配鲁棒性。为了实现高精度的深度估计,这些方法通常引入额外的深度监督或光流监督,但这也带来了额外的计算开销。

近年来,随着透视-鸟瞰视角(BEV)转换技术的进步,以及BEV表示在3D检测和场景分割中的出色性能,一些工作已经开始尝试使用BEV表示来实现视觉里程计。使用BEV表示的目的在于利用自动驾驶中的地平面假设来简化六自由度(6-DoF)里程计估计问题。然而,这些方法仍局限于在BEV表示下处理其他3D任务,通常需要先进行场景分割,再基于分割结果估计位姿。这些方法引入了额外的副任务监督,且依赖于高质量的分割结果,这不仅导致标签获取成本上升,也未能充分利用BEV表示提供的直接信息。

为了克服上述问题,本文提出了BEV-ODOM,一种新型的基于BEV表示的MVO方法。与其他框架的比较如图1所示。

▲图1|MVO方法的比较©️【深蓝AI】编译

我们的框架由以下几部分组成:基于深度的透视图到鸟瞰图编码器,用于评估不同偏移量的两个BEV之间相似性的关联特征提取模块,以及集成卷积神经网络(CNNs)和多层感知器(MLPs)的解码器,用于估计三自由度(3-DoF)的运动。与现有的基于学习的MVO方法不同,我们的方法无需Bundle Adjustment、位姿图优化以及其他辅助任务。与其他依赖于BEV表示的视觉里程计方法不同,我们的方法不依赖于BEV地图或占用地图中的分割结果来估计位姿,也不需要额外的监督。这一简化不仅提升了方法的效率,还避免了不准确的分割结果对MVO的负面影响,从而降低了数据采集成本。通过充分利用BEV表示的尺度一致性和精细的特征提取能力,我们的方法在具有挑战性的地面运动数据集上表现出优异的尺度一致性,并在当前的MVO方法中实现了最先进的(SOTA)性能。

本项工作的贡献如下:

1)本文提出了一种利用BEV表示的新型MVO框架,它有效地解决了尺度漂移问题,并且实现了更好的精度;

2)本文方法简化了利用BEV表示实现基于学习的MVO流程,消除了对深度估计、分割和占用地图生成等辅助任务的监督需求,从而提高了其效率和鲁棒性;

3)本文方法在具有挑战性的数据集上实现了当前MVO方法中SOTA性能。

3.方法

BEV-ODOM提出了一种利用BEV表示固有尺度一致性来进行运动估计的MVO方法。该方法除了视觉输入和位姿监督外,不需要额外的模块。处理过程首先从透视视角(PV)图像中提取特征,接着通过视锥映射的方法将这些特征投影到BEV平面。然后,通过计算两个帧之间在不同位移下对应BEV特征的相关性,提取两帧之间的相对运动信息。最后,使用CNN和MLP来细化这些特征,得到最终的输出。

在接下来部分中,本文将依次介绍系统的组件,并且详细介绍它们的实现过程。系统概览如图2所示。

▲图2|所提出的框架概览©️【深蓝AI】编译

3.1 视觉BEV编码器

本项工作选择基于深度的LSS架构用于BEV构建。这一选择与本文目标一致,即构建一致的尺度地图,确保在BEV表示中实现精确且稳定的特征定位。与BEVDepth不同,本文的BEV编码器不需要额外的深度监督,因为本文方法是完全可微分的,允许位姿监督提供梯度,以优化BEV编码器的特征提取和深度分布预测部分。

本文使用ResNet-50网络作为主干,从单目输入图像中提取图像特征。然后使用特征金字塔网络(FPN)在多个尺度上集成这些特征,从而获得维度为C \times H \times W的多尺度PV图像特征。

随后,使用MLP来编码相机的内参和外参,然后将其与F_{IF}逐元素相乘,以生成编码的PV特征图F_{PV}。Squeeze-and-Excitation(SE)操作表示为:

其中,EI为相机外参和内参,\odot表示逐元素相乘。

然后,卷积网络处理融合的特征,以生成维度为F_{PV_C} \in C \times H \times W的特征图,其中C表示特征图中通道的数量。通过类似的过程,本文生成了维度为F_{PV_D} \in D \times H \times W的深度分布地图,其中D表示深度分辨率。

值得注意的是,深度分布地图不是在训练过程中使用深度监督生成的,而是与关联特征提取颈部和使用位姿监督的位姿预测解码器相耦合的。因此,预测的深度分布不需要对应于实际尺度。在特征图级别上预测深度分布(而不是在整个透视图输入图像上)简化了深度预测过程,并且通过估计不同深度的概率增加了对预测误差的容忍性。

接着,本文对F_{PV_C}F_{PV_D}进行了调整,添加了额外的维度以确保它们能够对齐。F'_{PV_C}的新维度为\mathbb R^{C \times 1 \times H \times W}F'_{PV_D}的新维度为\mathbb R^{1 \times D \times H \times W}

接着,在通道和深度分布维度上执行逐元素相乘,得到多维特征图:

其中,维度为\mathbb R ^{C \times D \times H \times W}F_{PV_{multi}}代表每个像素在不同深度的激活。

最后,本文定义了BEV特征图的空间分辨率,并且使用视锥映射的方式将F_{PV_multi}投影到BEV空间中。在BEV空间内,采用高效的体素池化沿z轴压缩信息,生成维度为F_{BEV} \in C_B \times X_{range} \times Y_{range}的BEV特征图输出,其中CB代表BEV特征图中通道的数量。

3.2 相关性特征提取模块

基于BEV特征,我们设计了一个相关性计算模块,通过生成两个BEV特征图的相关性体积来确定相邻帧之间的特征匹配。与通过计算所有像素对的点积生成4D相关性体积以进行全局相关性计算的RAFT不同,我们的方法聚焦于在捕捉特征图在有限位移范围内的局部相关性。这种设计特别适用于BEV平面里程计应用中的小位移情况,能够有效减少计算量,同时准确捕捉到运动的关键信息。

该模块以两个BEV特征图作为输入,其中每个特征图的维度为F_{BEV} \in C_B \times X_{range} \times Y_{range}。然后,它将后一帧的BEV特征图在x方向上从-\Delta_x移动到\Delta_x,在y方向上从-\Delta_y移动到\Delta_y。对于每次移动,每个位置(x,y)的相关性矩阵C_s计算如下:

其中,F_{BEV1}F_{BEV2}为连续帧的BEV特征图,C为BEV特征图中的通道数量,\Delta_x\Delta_y分别表示BEV特征图上x和y方向上的偏移。计算结果C_s为维度X_{range} \times Y_{range}的矩阵,对应于BEV特征图的空间维度,其获取每个空间位置的关联得分。通过考虑每种可能的偏移组合,创建了一个维度为2\Delta_x \times 2\Delta_y \times X_{range} \times Y_{range}的相关性体积。该4D相关性体积为每种可能的位移提供了一个相关性得分矩阵,并且详细描述了获取该帧相对运动的特征空间。

3.3 位姿预测解码器

在位姿预测器中,首先将2\Delta_x2\Delta_y维度合并为单个维度4\Delta_x \Delta_y,然后使用卷积层来降低相关性体积的维度。随后,将多维输出转换为一维并且通过全连接层对其处理,从而生成两个分支:一个用于预测x和y位移,另一个用于预测cosθ和sinθ,以规避直接预测θ导致的不连续性问题,这有助于网络学习正确的映射。在输出层之后,应用tanh函数进行后处理,将输出缩放到合理的范围内,并且降低异常值的影响。本文模型采用两帧之间的相对位姿进行监督,计算旋转矩阵和平移向量的L1损失。然后将这些损失进行加权组合以获取最终的损失,它用于更新网络参数。 仅考虑绕z轴旋转以及沿x轴和y轴平移的整体监督损失LRt可以描述如下:

其中,t_{pred}R_{pred}分别为预测的平移向量和旋转矩阵,t_{gt}R_{gt}分别为真值平移向量和旋转矩阵。系数α用于平衡平移误差和旋转误差对于总损失的贡献。

4.实验

4.1 实现细节

本文使用三个不同难度的数据集评估所提出的方法:University of Michigan North Campus Long-Term Vision and LIDAR Dataset(NCLT)、Oxford Radar RobotCar Dataset(Oxford)和KITTI-odometry Dataset(KITTI)。NCLT数据集是最具挑战性的,其中包含明显颠簸和光照强度变化的数据。相比于KITTI,Oxford数据集包含更复杂的驾驶路径。

本文将所提出的方法与三种算法进行比较:ORB-SLAM3、DF-VO和DROID-SLAM。对于Oxford和NCLT数据集,在三个序列上进行训练,并且在一个序列上进行测试。对于KITTI数据集,在序列00-08上训练并且在序列09和10上测试,遵循标准评估协议。

本文使用RTE、RRE和ATE作为评估指标来测量里程计轨迹与真值的偏差。RTE测量100米至800米距离内的平均平移RMSE漂移,而RRE计算相同距离内的旋转RMSE漂移。ATE测量预测的相机位姿和真值之间的平均平移误差。

4.2 案例研究

图3可视化了BEV-ODOM的中间变量和结果。左上角显示了预测的轨迹和实际的轨迹。右上角显示了在时间t和t+1时四个示例位置的相机图像。在图3中,A表示直线路段,B和C表示左转场景,D表示右转位置。下图显示了BEV特征图和BEV光流信息。

▲图3|BEV-ODOM的中间过程和输出结果©️【深蓝AI】编译

由上图可知,在直线路段运动、左转和右转过程中,使用BEV光流信息的特征图展现出特定的流向模式。相比之下,使用透视图输入来预测光流无法达到类似的效果,这是因为环境变化以及近场和远场的分布所导致的。

4.3 轨迹评估

在轨迹分析中,如图4所示,对于NCLT和Oxford数据集,左图描述了完整的轨迹,而右图显示了这些轨迹的选定部分。

▲图4|在NCLT、Oxford和KITTI数据集上的轨迹比较©️【深蓝AI】编译

这种区别对于综合评估是至关重要的:

1)完整轨迹分析(左图):这些轨迹图像是在三个完整序列上训练和另一个完整序列上测试的可视化。仅显示了本文方法,因为其它方法在整个序列上会生成不可靠的轨迹。这突显了现有MVO方法在长期或者复杂环境中维持尺度一致性和精确轨迹估计所面临的挑战;

2)选定轨迹分析(右图):这些轨迹图像将在一个序列的一部分上训练的结果和同一序列中未见过场景中的测试结果可视化。该测试方法评估了所提出方法在新环境中的泛化能力和精度,结果表明,本文方法仍然表现最佳。

表格1展现了本文方法在KITTI、NCLT和Oxford数据集上与其它方法的性能比较。

▲表格1|在NCLT、Oxford和KITTI数据集上的性能比较©️【深蓝AI】编译

4.4 尺度漂移测试

表格2展示了本文方法在尺度一致性方面的卓越性能。

▲表格2|在三个数据集上的尺度漂移©️【深蓝AI】编译

首先,本文根据前10米的真值来调整所有方法(除了本文方法和DF-VO)的尺度。然后,使用以下公式计算尺度漂移:

其中,D_{scale}为所有路段上的平均尺度漂移,N为路段的总数,d_i为第i段估计的位移距离,d_i^{GT}为第i段的真值位移距离。

图5显示了各种方法沿路径的对数尺度因子的变化。与其它方法相比,本文方法在整条路径上展现出一致的尺度因子。

▲图5|沿路径的对数尺度因子的变化©️【深蓝AI】编译

4.5 消融研究

本文设计消融实验来分析不同超参数组合的性能以及引入不同监督和数据时的网络性能。本文采用RTE和RRE指标,因为它们提供了对不同距离范围内里程计漂移的衡量。

▲表格3|在三个数据集上的消融研究©️【深蓝AI】编译

如表格3所示,本文进行了如下实验:

1)BEV特征图的范围和精度不同,这会影响BEV的视场范围和精细度;

2)关联计算之前特征图裁剪尺寸不同。较小的地图会丢失周围特征的位置信息,而较大的地图会增加计算成本并且引入无关且视图外的数据;

3)关联计算过程中偏移距离范围不同。该值会影响网络观测到的潜在位移范围。

通过分析表格3中的结果,可以得出结论,BEV网格的分辨率不需要很高,但是扩大BEV特征图的整体覆盖范围是有用的。包含范围更广特征的BEV特征图不仅提供了隐式的路标信息,还为后继网络层提供了“多尺度”特征。

5.总结

这是一种旨在解决单目视觉里程计系统中尺度漂移问题的新框架。本文从透视图像中提取特征并且估计其深度分布,将其投影到3D空间并且压缩为BEV表示。然后,使用相关性特征提取模块来获取BEV特征图之间的运动信息。最后,使用基于CNN-MLP的位姿解码器估计3-DoF运动。本文在广泛使用的NCLT、Oxford和KITTI数据集上进行大量实验,以验证所提出方法的有效性。结果表明,本文方法在所有数据集上均获得了优越的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值