点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
论文作者 | Xiaosong Jia等
编辑 | 自动驾驶之心
自动驾驶中的4D场景重建是实现环境感知与运动规划的关键环节,然而传统视觉几何模型在多相机、低重叠的自动驾驶场景中往往表现不佳。
来自上海交大、复旦等机构的研究者提出 DriveVGGT,一种专为自动驾驶设计的视觉几何Transformer,通过显式引入相机相对位姿先验,显著提升了多相机系统的几何预测一致性与推理效率。
论文标题:DriveVGGT: Visual Geometry Transformer for Autonomous Driving
论文链接:https://www.arxiv.org/abs/2511.22264
更多自动驾驶的行业信息、技术进展,欢迎加入自动驾驶之心知识星球获取!

背景介绍
4D重建是一项从视觉传感器预测几何信息的计算机视觉任务。与其他传感器相比,基于相机的重建因其低成本而在各个领域,尤其是在自动驾驶和机器人学中,得到了广泛的研究和应用。通常,重建方法有两种类型。第一种是基于迭代的方法,例如。这些方法需要选择特定的场景或物体,并通过迭代重建来获得优化结果。然而,由于泛化能力不足,当场景或物体发生变化或修改时,基于迭代的方法需要重新训练模型。第二种是前向方法。这些方法可以直接输出预测结果,而无需更新任何模型参数。其中的代表性模型 VGGT,能够在各种场景中同时预测 4 种几何任务,标志着一次重大突破。
尽管前向方法已经实现了良好的泛化能力,但在将其应用于自动驾驶场景时仍存在一些局限性。首先,对于自动驾驶车辆上的摄像头,为了在视场角和成本之间取得平衡,这些摄像头的视角通常差异很大,每个摄像头捕获的图像重叠度很低。因此,模型很难识别相似特征并最终预测有效的图像位姿关系。其次,虽然在自动驾驶系统中,摄像头相对位姿的标定是易于获取的,但这些相对位姿无法直接在前向方法中使用。由于前向模型的预测结果与现实世界相对位姿之间存在尺度差异,直接聚合会导致几何标记之间的尺度模糊性。同时,在大多数先前的前向架构中,每个图像标记仅包含一个相机位姿标记,这意味着相对位姿无法得到有效表示。
为了在多相机系统中充分聚合相机相对位姿,我们提出了一种带有相对位姿的多相机视觉几何变换器,以实现相对位姿与来自 VGGT 的几何标记之间的有效融合。该模型包含两个部分。首先,提出了时序视频注意力模块,用于在所有摄像头之间实现摄像头级别的几何聚合。由于每个摄像头的视频具有时序连续性,VGGT 可以有效地将单摄像头视频处理成几何标记。每个图像的几何标记由图像位姿标记和深度标记组成,将分别用于预测图像位姿和深度。
然而,图像位姿标记仅表示当前图像与第一帧图像之间的关系。因此,为了建立车辆上所有摄像头之间的位姿关系,我们提出了多相机一致性注意力模块,将相对位姿作为额外的位姿标记注入到每个图像中。具体来说,我们提出一种相对位姿嵌入方法来归一化真实世界的相机位姿,随后将其对齐到与几何标记相同的维度。为了实现不同摄像头图像之间的交互,我们利用窗口注意力机制依次增强相邻的多相机标记。所提出的方法在 nuScenes 数据集上优于其他模型,该数据集的车辆上安装了 6 个低重叠度的摄像头。具体而言,所提出的方法能够以更低的延迟实现更好的重建结果。
综上所述,我们的贡献如下:
我们提出了 DriveVGGT,一个用于实现自动驾驶多相机系统 4D 重建的前向框架。与 VGGT 相比,DriveVGGT 充分整合了 AD 系统内部的数据先验以及多相机系统的独特设置。因此,DriveVGGT 实现了更快的推理速度和更高的预测精度,使得各种自动驾驶任务的执行更加高效可靠。
我们引入了一个高效的两阶段流程来处理多相机图像。具体来说,我们提出了时序视频注意力模块,独立处理多相机视频,以更好地利用每个单相机序列中的时空连续性。我们提出了多相机一致性注意力模块,利用归一化的相对位姿嵌入进行窗口注意力计算,在不同摄像头之间建立一致性关系,同时限制每个标记仅关注附近的帧。
在 nuScenes 数据集上进行的大量实验表明,我们提出的 DriveVGGT 具有优越性,其在推理速度和预测精度上均优于其他基于 VGGT 的方法。
DriveVGGT算法概述
整体介绍
我们提出 DriveVGGT,旨在充分利用相机相对位姿信息,以提升几何任务(如相机位姿估计和深度估计)的模型性能。该模型总体上由三个子模块组成。
首先,提出 时序视频注意力(TVA)模块,用于从每个相机序列中提取几何特征,该序列包含用于指示与每个视频第一帧位置关系的序列位姿标记,以及用于指示几何特征的图像标记。
然后,提出 多相机一致性注意力(MCA)模块,用于实现相邻图像的多相机注意力。为了克服低重叠图像的不稳定性,我们将相对位姿注入注意力过程,以生成统一的几何表示。
最后,预测头将上述特征解码为相对位姿、序列位姿和深度的预测结果。
时序视频注意力(Temporal Video Attention)
时序视频注意力模块旨在建立每个相机捕获的图像之间的初始几何关系。这些图像属于连续视频流,便于前向几何模型(如 VGGT)输出有效的重建结果。具体而言,对于 N 张图像,最简单的前向几何变换器形式为:
上述结果是第 张分辨率为 的图像,f(.)是将这些图片处理为标记的变换器函数。随后,在解码器头的帮助下,这些标记可以被转换为实际的几何信息:
为了将相机相对位姿注入前馈重建模型,我们引入了 3 个子模块:1) 时序视频注意力模块 用于实现每个相机图像之间的视频级注意力,并初步输出序列位姿和几何标记;2) 相对位姿嵌入模块 用于归一化真实世界的相对位姿并将其映射到与标记相同的维度;3) 多相机一致性注意力模块 应用窗口注意力在有限的序列长度内实现所有相机图像之间的交互。最终,DriveVGGT 可以输出 4 种几何任务并完成场景重建。
在多相机情况下,与 VGGT 中的全局注意力不同,时序视频注意力仅对同一相机捕获的图像实现注意力。例如,对于 个同时捕获 张图像的相机,TVA 模块的功能是:
该模块仅聚合每个相机的特征,TVA 模块的输出为:
分别表示相机位姿标记仅代表序列位姿预测结果,这些结果分别与每个相机的第一张图像对齐。
相对位姿嵌入
考虑到前馈视觉几何模型提出的最终几何输出存在尺度不确定性,对车辆或机器人上所有相机之间的相对位姿进行预处理具有重要意义。首先,为了缓解输入和输出之间的尺度差异,我们将所有相机之间的平移归一化(均值 = 0,标准差 = 0.1)。 遵循 VGGT 的编码器方法,我们将内参和外参转换为一个 10 维向量:
考虑到自动驾驶车辆上相机(数量=M)的相对位姿在任何时刻都是静态的,我们只需要处理 M 个相机位姿。然后,我们将 PcamPcam 映射到与 TVA 模块标记相同的维度,并将其视为表示车辆上所有相机相对位姿关系的几何信息:
多相机一致性注意力
TVA 模块的输出仅实现了同一相机图像之间的注意力。然而,此过程存在两个问题。
首先,每个相机视频的初始图像位姿被设置为相同的位置,这意味着需要估计相对位姿以恢复相机在全局世界中的位姿。
其次,由于各相机之间的注意力隔离,每个视频的尺度存在偏差。为了克服上述问题,提出了多相机一致性注意力(MCA)模块以获得统一的重建结果。该模块能够为长序列注意力实现较低的计算复杂度。
为了优化来自 TVA 模块的标记,在实施注意力之前提出了标记初始化操作,该操作将相对位姿标记聚合到来自 TVA 模块的初始标记中。考虑到后续的预测头仅使用来自选定 4 个层的标记,我们在 MCA 模块中仅提取和处理选定的标记。对于每一层,我们将来自相对位姿嵌入模块的相对位姿标记进行拼接:
其中 表示每个视频的帧索引, 表示车辆上的第 个相机。由于车辆上的相机是固定的,每帧的相对相机位姿相同。
窗口注意力
与基于流的方法不同,全局重建优化可以随时(无论是过去还是未来)实施注意力。就长序列视频重建而言,所有图像之间的全局注意力是冗余且低效的。因此,我们提出窗口注意力,对属于相邻 3 个时间帧的多相机图像实施注意力操作:
其中Atteni是第 (i-1)、i、(i+1) 个标记之间的第 i 次全局注意力。Fi(i,j)Fi(i,j) 是最终优化的第 个标记。对于每个相机序列的 帧图像,上述注意力操作实施 次。
最后,经过上述窗口注意力后,所有标记由 3 部分组成:相对位姿标记、序列位姿标记和图像几何标记。考虑到相对相机位姿是时不变的,MCA 模块最终输出 个相对位姿和 个序列位姿。因此,我们将序列位姿标记聚合为:
以及相对位姿标记为:
实验结果分析
数据集
nuScenes 数据集包含多种驾驶场景。对于每个场景,nuScenes 记录了 20 秒的数据,包含来自 6 个摄像头、1 个激光雷达、车辆自身位姿、传感器标定等丰富的多模态信息。在我们的实验中,我们主要使用来自 6 个摄像头的图像及其相对位姿作为模型输入。与之前在 nuScenes 上的相关工作类似,我们使用 700 个驾驶场景进行训练,150 个用于验证。对于每个场景,我们使用以 2Hz 频率记录的带标注样本进行训练和测试。 同时,直接使用稀疏的激光雷达点云生成深度图作为真实值是不可行的。考虑到 nuScenes 数据集的这一不足,我们实施了两个有效的步骤来生成用于训练的密集深度图。
首先,我们聚合多帧激光雷达点云,构建包含更多细节的整个场景点云。对于标注的动态物体,我们使用它们在每个时间步的 3D 边界框来聚合其点云。
其次,将点云投影到深度图上后,我们利用深度增强算法来提高深度图的有效性。
这两个步骤会给深度真值带来一些噪声,但它们足以用于训练。
实施细节
对于模型的输入,我们将 nuScenes 的初始图像分辨率从 1600x900 降低到 518x280,并在生成真实值时对图像内参进行同样的更改。然后,与 VGGT 类似,我们对深度图和相机位姿进行尺度归一化以保持尺度一致,同时我们额外使用了尺度进行训练。我们在 8 块 NVIDIA H200 GPU 上训练所有模型,并在 1 块 NVIDIA H200 GPU 上进行测试。关于训练过程,首先,我们从场景中随机输入 3-10 帧多相机图像(18-60 张图像),训练 20 个周期。每个周期训练 1000 次,学习率为 2e-4。然后我们冻结聚合器,再用 1e-5 的学习率微调 5 个周期。为了公平比较,我们使用相同的方法训练其他模型。
位姿估计
为了将所提方法的位姿估计与其他基于 VGGT 的方法进行比较,我们在 nuScenes 数据集上测试了 VGGT、StreamVGGT 和 fastVGGT。为了说明模型在不同数量图像输入下的性能,我们设置了三种图像输入:15 帧(90 张图像)、25 帧(150 张图像)和 35 帧(210 张图像)。同时,我们将相对位姿嵌入整合到 VGGT 和 fastVGGT 中,以展示相对位姿在这些模型中的作用。
对于我们的方法,我们实现了两种基础几何变换器来在 TVA 模块中实现时序视频注意力,即 DriveVGGT (VGGT) 和 DriveVGGT (fastVGGT)。结果如表 1 所示。首先,DriveVGGT (VGGT) 取得了比其他方法更好的性能,尤其是在包含 210 张图像的场景中。同时,对于相机位姿嵌入的实现,VGGT 和 fastVGGT 出现了性能下降。然而,对于 DriveVGGT,聚合操作提高了相机位姿估计的准确性,这证明了 DriveVGGT 对相对位姿的充分利用。
深度估计
深度估计的比较如表 2 所示。作为对相机位姿估计的评估,我们在 nuScenes 数据集上测试了 VGGT、StreamVGGT、fastVGGT 和 DriveVGGT。在 Abs Rel 指标上,DriveVGGT(fastVGGT) 在 35 帧场景中取得了最佳的深度估计性能,这表明其处理长序列多相机视频的能力。StreamVGGT 在 15 帧场景中优于其他方法。
推理时间估计
推理时间的比较如表 3 所示。总体而言,与 VGGT 和 fastVGGT 相比,所提方法实现了更快的推理速度。DriveVGGT(VGGT) 在 35 帧场景中的推理时间仅为 VGGT 的 50%。同时,DriveVGGT(fastVGGT) 的速度低于 DriveVGGT(VGGT),这是由于 fastVGGT 中额外的标记聚合算法导致在处理较少图像时推理时间延迟。
可视化
为了量化所提方法的综合性能,我们比较了 VGGT、fastVGGT 和 DriveVGGT 的可视化结果。为了生成最终的点云,我们在图像外参的指导下将深度图投影到全局点。 我们可视化了交通场景中 3 种典型车辆运动状态的重建结果和相机位姿输出。我们使用 30×6 张图像作为模型输入。
在第一个场景中,重建结果取得了很好的效果。然而,与其他方法相比,fastVGGT 的相机位姿输出表现出轻微的偏差。
在第二个场景中,虽然 DriveVGGT 能够从第一张图像到最后一张保持稳定的位姿预测,但 VGGT 和 fastVGGT 表现出严重的性能下降,尤其是对于远离初始图像的图像。同时,严重的位姿偏差导致点云输出模糊不清。
消融实验
为了验证所提组件的有效性,我们通过从 DriveVGGT 中移除所提模块进行了消融研究,详细评估见表 4。基线模块仅使用 TVA 模块来实现视频中图像之间的注意力。测试结果表明,由于缺乏相对位姿表示,基线无法处理多相机系统。添加相对位姿嵌入后,模型可以输出多相机系统的正确位姿预测。
为了全面评估窗口注意力的功能,我们在表 5 中测试了 3 种窗口大小。与大小为 5 和 7 相比,大小为 3 可以在性能和效率之间保持平衡。
为了评估尺度头的有效性,我们使用两种对齐方法(最小二乘法和基于尺度的方法)将深度预测结果与真实值进行比较。结果如表 6 所示。结果表明,尺度预测可以将深度转换为真实世界尺度。随后,我们可视化了真实尺度的点云和相机外参。结果表明,真实尺度的点云保持了与归一化点云相似的几何一致性。
结论
在本工作中,我们提出了 DriveVGGT,一个专门用于多相机几何预测的前馈重建模型。与之前的方法相比,DriveVGGT 能够有效利用相对相机位姿来提升几何预测(如相机位姿和深度估计)的准确性。在 nuScenes 数据集上的综合评估表明,与之前的前馈方法相比,DriveVGGT 取得了更优的性能,同时保持了较低的计算消耗。
自动驾驶之心
3DGS理论与算法实战课程!

知识星球交流社区

1638

被折叠的 条评论
为什么被折叠?



