点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享北大&理想&伯克利人工智能研究院最新最新的工作—GeoDrive!面向自动驾驶的新一代世界模型系统。如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『世界模型』技术交流群
论文作者 | Anthony Chen等
编辑 | 自动驾驶之心
由北京大学、伯克利人工智能研究院(BAIR)与理想汽车(Li Auto)联合出品,GeoDrive 是一款面向自动驾驶的新一代世界模型系统。针对现有方法普遍依赖二维建模、缺乏三维空间感知,从而导致轨迹不合理、动态交互失真的问题,GeoDrive 首创性地将三维点云渲染过程纳入生成范式,在每一帧生成中显式注入空间结构信息,显著提升了模型的空间一致性与可控性。
🚘 GeoDrive 的三项关键技术创新:
1️⃣ 几何驱动的时序条件生成 系统以单帧 RGB 图像为输入,借助 MonST3R 网络精准估计点云和相机位姿; 结合用户提供的轨迹信息,逐帧进行投影生成,构建具有三维一致性的条件序列,确保场景结构连贯真实。
2️⃣ 动态编辑模块:突破静态渲染局限 通过融合 2D 边界框注释,GeoDrive 支持对可移动物体的灵活位置调整,解决传统渲染中“场景冻结”的假设; 在训练阶段显著提升多车交互场景的动态合理性和模拟真实度。
3️⃣ 结构增强的视频扩散生成架构 将渲染生成的条件序列与噪声特征拼接输入冻结的 Video Diffusion Transformer(DiT), 在保持光学生成质量的同时,引入结构上下文以增强三维几何保真度,实现内容与物理一致性的统一。
论文链接:https://arxiv.org/abs/2505.22421
写在前面
世界模型的最新进展彻底改变了动态环境的仿真,使系统能够预见未来状态并评估潜在动作。在自动驾驶中,这些能力有助于车辆预测其他道路使用者的行为、进行风险感知规划、加速仿真中的训练,并适应新场景,从而提高安全性与可靠性。当前的方法在保持 鲁棒的 3D 几何一致性或处理遮挡时存在缺陷,这在自动驾驶任务的安全评估中至关重要。为了解决这些问题,本文提出了 GeoDrive,该方法将 鲁棒的 3D 几何条件显式地整合到驾驶世界模型中,以增强空间理解能力和动作可控性。具体来说,我们首先从输入帧中提取 3D 表示,然后基于用户指定的自车轨迹获得其 2D 渲染结果。为了实现动态建模,我们在训练过程中提出了一种动态编辑模块,通过编辑车辆的位置来增强渲染效果。大量实验表明,我们的方法在动作准确性和 3D 空间感知方面显著优于现有模型,实现了更加真实、可适应和可靠的场景建模,从而提高了自动驾驶的安全性。此外,我们的模型能够泛化到新的轨迹,并提供交互式的场景编辑功能,例如目标编辑和目标轨迹控制。
引言
自动驾驶世界模型通过模拟三维动态环境,使以下关键能力成为可能:轨迹一致的视角合成、符合物理规律的运动预测,以及安全感知的场景重建和生成。特别是,生成视频模型已成为自运动预测和动态场景重建的有效工具。它们能够合成忠实于轨迹的视觉序列,这对于开发能够预见环境交互同时保持物理合理性的自主系统至关重要。
尽管取得了这些进展,但大多数现有方法由于依赖于二维空间优化,缺乏足够的三维几何感知能力。这一缺陷导致在新视角下出现结构性不连贯现象,以及物理上不合理的物体交互,这在密集交通中的避障等安全关键任务中尤其有害。此外,现有方法通常依赖密集标注(例如高精地图序列和三维边界框轨迹)来实现可控性,只能重复预设动作,而无法理解车辆动力学。
一种更灵活的方法是从单张(或少量)图像中推断动态先验信息,并以期望的自车轨迹为条件。然而,当前基于数值相机参数进行微调的方法缺乏对三维几何结构的理解,从而影响了其动作可控性和一致性。
一个可靠的驾驶世界模型应满足三个标准:
静态基础设施与动态代理之间具有严格的时空一致性;
对自车轨迹具有三维可控性;
对非自车代理的运动模式施加运动学约束。
我们通过一个混合神经-几何框架实现了这些需求,该框架显式地在整个生成序列中强制执行三维几何一致性。首先,我们从单目输入中构建三维结构先验,然后沿着用户指定的相机轨迹进行投影渲染,以生成基于几何条件的引导信号。我们进一步采用级联视频扩散模型,通过三维注意力去噪机制细化这些投影,在优化光度质量的同时提高几何保真度。对于动态目标,我们引入了一个物理引导编辑模块,该模块在明确的运动约束下变换代理外观,以确保物理上合理的交互。
我们的实验表明,GeoDrive显著提升了可控驾驶世界模型的性能。具体而言,我们的方法改善了自车动作的可控性,将轨迹跟踪误差降低了 42%,相较于 Vista模型。此外,我们在视频质量指标方面也取得了显著提升,包括 LPIPS、PSNR、SSIM、FID 和 FVD。此外,我们的模型能够有效泛化到新的视角合成任务,在生成视频质量上超越了 StreetGaussian。除了轨迹控制外,GeoDrive 还提供了交互式场景编辑功能,如动态目标插入、替换和运动控制。此外,通过整合实时视觉输入与预测建模,我们增强了视觉语言模型的决策过程,提供了一个交互式仿真环境,使路径规划更加安全和高效。
相关工作回顾
自动驾驶世界模型
世界模型已成为使智能体能够在复杂动态环境中预见和行动的基石,在自动驾驶领域提出了独特的挑战,包括大视野、高度动态的场景以及对鲁棒泛化能力的需求。近年来的研究探索了多种用于未来预测的生成框架,利用点云、占据网格和图像等表示方法。
基于点云的方法利用激光雷达捕捉到的详细几何信息来预测未来状态,并实现空间几何和动态交互的精确建模。基于占据网格的方法进一步将环境离散化为体素网格,以更细粒度和几何一致性的方式建模场景演变。
基于图像的世界模型因其传感器灵活性和数据可访问性而展现出更大的扩展潜力。它们通常利用强大的生成模型来捕捉真实世界环境的复杂视觉动态,使其在感知和规划任务中特别有价值。
尽管现有的生成模型(如 DriveDreamer和 DrivingDiffusion)通过依赖密集标注(例如高精地图序列和长期的 3D 边界框轨迹)实现了准确的场景控制,但它们只能重复预设动作,而无法真正理解车辆动力学。一种更灵活的方法是直接从单张(或少量)图像中推断动态先验信息,同时结合所需的自车轨迹进行条件设定。最近的系统如 Vista、Terra和 GAIA 1&2通过将原始数值控制向量直接注入生成主干网络,实现了基于动作的生成。然而,由于控制向量并未显式地与视觉潜在空间对齐,导致生成的动作信号较弱,常常导致控制不稳定,需要更大的训练数据集才能收敛。
相比之下,我们的方法将动作命令作为视觉条件输入进行渲染,这与生成潜在空间自然对齐,从而提供了更强的控制信号,并显著提高了生成结果的稳定性和可靠性。
视频生成的条件控制
扩散生成模型已经从文本到图像系统演变为完全多模态的引擎,能够按需合成整个视频序列。在这个过程中,研究重点稳步转向条件生成——为用户提供明确的控制手段来引导输出。ControlNet、T2I-Adapter 和 GLIGEN等里程碑首次将条件信号嵌入文本到图像的流程中;后续研究将其扩展到视频领域,允许使用 RGB 关键帧、深度图、目标轨迹 或语义掩码进行控制。然而,6 自由度相机路径的控制仍然困难。基于 LoRA 的粗略运动类别、数值矩阵条件、深度变形方案和 Plücker 坐标编码各有不足——要么控制不精确,要么覆盖域有限,或者从数字到像素的映射间接。
规划器和安全模块需要帧级别的精度,因此诸如 DriveDreamer和DrivingDiffusion等生成器依赖密集的高清地图序列和长期的 3D 框轨迹来锁定场景到预定路线。其他系统如 Vista、GAIA 1&2 将控制向量直接注入主干特征,但数值命令与视觉特征之间的不匹配削弱了信息,减缓了优化过程,并经常产生漂移。在本工作中,我们提出使用显式的视觉条件来进行精确的自车轨迹控制。
算法详解
给定一个初始参考图像 和自车轨迹 ,我们的框架合成遵循输入轨迹的真实感未来帧。我们利用参考图像中的 3D 几何信息来指导世界建模。首先,我们重建一个 3D 表示,然后沿着用户指定的轨迹渲染视频序列,并处理动态目标。渲染的视频提供几何引导,用于生成时空一致、符合输入轨迹的视频。图 2 展示了整个训练流程。
从参考图像中提取 3D 表示
为了利用 3D 信息进行 3D 一致的生成,我们首先从单张输入图像 构建一个 3D 表示。我们采用 MonST3R,这是一个现成的密集立体模型,能够同时预测 3D 几何和相机姿态,与我们的训练范式相匹配。在推理过程中,我们复制参考图像以满足 MonST3R 的跨视图匹配需求。
给定 RGB 帧 ,MonST3R 通过帧间的跨视图特征匹配预测每个像素的 3D 坐标 和置信度得分 :
其中 表示第 个参考帧中像素 在度量空间中的位置, 表示重建的可靠性。通过对 设置阈值 (通常为 ),第 个参考帧的彩色点云为:
为了对抗序列中有效匹配与无效匹配之间的不平衡,置信图 使用 focal loss 进行训练。此外,为了将静态场景几何与移动物体分离,MonST3R 使用了一个基于 Transformer 的解耦模块。该模块处理参考帧的初始特征(通过跨视图上下文增强),并将它们分为静态和动态两部分。解耦模块使用可学习的提示 token 来分割注意力图:静态 token 关注大平面区域,动态 token 关注紧凑且运动丰富的区域。通过排除动态对应关系,我们获得了一个鲁棒的相机姿态估计:
其中 表示透视投影算子,仅使用静态特征匹配进行计算。
相比传统的 Structure-from-Motion,这种策略在动态城市场景中减少了 38% 的姿态误差。最终得到的点云 将作为我们的几何支架。
带动态编辑的 3D 视频渲染
为了实现精确的输入轨迹跟随,我们的模型渲染了一段视频作为生成过程的视觉引导。我们使用标准的投影几何技术,将参考点云 投影到每个用户提供的相机配置 上。每个 3D 点 经过刚体变换进入相机坐标系 ,然后使用相机内参矩阵 进行透视投影,得到图像坐标:
我们只考虑深度范围在 米内的有效投影,并使用 z-buffering 处理遮挡,最终生成每个相机位置的渲染视图 。
静态渲染的局限性:由于我们只使用第一帧的点云,渲染的场景在整个序列中保持静态。这与真实的自动驾驶场景存在显著差异,因为在真实场景中车辆和其他动态目标始终在移动。静态渲染无法捕捉区分自动驾驶数据集与传统静态场景的动态本质。
动态编辑:为了解决这一限制,我们提出动态编辑,以生成具有静态背景和移动车辆的渲染结果 。具体来说,当用户提供场景中移动车辆的一系列 2D 边界框信息时,我们动态调整它们的位置,以在渲染中创建运动的错觉。这种方法不仅在生成过程中引导自车轨迹,还控制场景中其他车辆的运动。图 3 展示了这一过程。这种设计显著减少了静态渲染与真实动态场景之间的差异,同时实现了对其他车辆的灵活控制——这是现有方法如 Vista和 GAIA所不具备的能力。
双分支控制以实现时空一致性
虽然基于点云的渲染准确地保留了视图之间的几何关系,但它在视觉质量方面仍存在一些问题。渲染的视图通常包含大量遮挡、因传感器覆盖有限而缺失的区域,以及相比真实相机图像降低的视觉保真度。为了提升质量,我们采用了一个潜视频扩散模型来细化投影视图,同时通过特定的条件设置保持 3D 结构保真度。
在此基础上,我们进一步优化了将上下文特征集成到预训练扩散Transformer(DiT)中的方式,借鉴了 VideoPainter提出的方法。然而,我们引入了针对特定需求的关键区别。我们使用动态渲染来捕捉时间与上下文细节,为生成过程提供更适应性的表示。设 表示我们修改后的 DiT 主干层 的特征输出,其中 表示通过 VAE 编码器 得到的动态渲染潜变量, 是时间步 的噪声潜变量。
这些渲染结果通过一个轻量级的条件编码器处理,该编码器提取关键背景线索,而不重复主干架构的大部分结构。将条件编码器的特征集成到冻结的 DiT 中的方式如下:
其中 表示处理噪声潜变量 和渲染潜变量 拼接输入的条件编码器, 表示 DiT 主干中的总层数。 是一个可学习的线性变换,初始化为零,以防止训练初期出现噪声崩溃。这些提取的特征以结构化方式选择性融合进冻结的 DiT,确保只有相关的上下文信息引导生成过程。最终视频序列通过冻结的 VAE 解码器 解码为 。
实验结果
结论
我们提出了 GeoDrive,这是一种用于自动驾驶的视频扩散世界模型,通过显式的米级轨迹控制和直接的视觉条件输入增强了动作可控性和空间准确性。我们的方法重建了三维场景,沿着期望的轨迹进行渲染,并使用视频扩散优化输出。评估表明,我们的模型在视觉真实感和动作一致性方面显著优于现有模型,支持诸如非自车视角生成和场景编辑等应用,从而设定了新的基准。
然而,我们的性能依赖于 MonST3R 对深度和姿态估计的准确性,仅依靠图像和轨迹输入进行世界预测仍具有挑战性。未来的工作将探索结合文本条件和 VLA 理解以进一步提高真实感和一致性。
自动驾驶之心
论文辅导来啦

知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com
6427

被折叠的 条评论
为什么被折叠?



