时空视觉推理SOTA!FSDrive:基于时空CoT可视化的思考(高德和西交)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享高德和西交团队最新的工作!FSDrive: 利用时空CoT可视化的思考!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『视觉大语言模型』技术交流群

论文作者 | Shuang Zeng等

编辑 | 自动驾驶之心  

写在前面 & 笔者的个人理解

视觉语言模型(VLMs)因其强大的推理能力,在自动驾驶领域受到日益广泛的关注。然而,现有VLMs通常采用针对特定场景设计的离散文本思维链(Chain-of-Thought, CoT),这种表征本质上是对视觉信息的高度抽象和符号化压缩,可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模,而非纯粹依赖符号逻辑?本文提出一种时空思维链(spatio-temporal CoT)推理方法,使模型可视化地思考。首先,VLM作为世界模型生成统一图像帧以预测未来世界状态:其中感知结果(如车道分隔线和3D检测)表征未来的空间关系,普通未来帧则表征时间演化的动态关系。该时空思维链作为中间推理步骤,使VLM能够充当逆动力学模型,基于当前观测和未来预测进行轨迹规划。为实现VLM的视觉生成能力,提出了统一视觉生成与理解的预训练范式,并设计渐进式生成过程增强自回归图像生成方法。大量实验结果验证了该方法的有效性,推动自动驾驶迈向视觉推理。

  • 项目链接:https://misstl.github.io/FSDrive.github.io

  • 论文链接:https://arxiv.org/abs/2505.17685

  • 代码链接:https://github.com/missTL/FSDrive

关键词:视觉-语言模型(Vision-Language Models, VLMs)、链式思维(Chain-of-Thought, CoT)推理、自动驾驶、统一视觉生成与理解预训练

简介

近年来,鉴于多模态大语言模型(MLLMs)在世界知识、推理能力和可解释性方面的卓越表现,它们已被广泛应用于自动驾驶领域。一个具有前景的方向是端到端视觉-语言-动作(VLA)模型,该模型利用预训练视觉-语言模型(VLM)直接从视觉观测和语言指令中提取场景特征,进而生成车辆控制指令(如速度和轨迹)。这种范式不仅简化了系统架构并最小化信息损失,还能利用模型的世界知识分析驾驶环境,在复杂场景中进行安全决策的推理。

在语言领域,思维链(CoT)通过鼓励逐步推理显著提升了推理能力和可解释性。然而,现有自动驾驶研究通常将离散文本CoT(如针对当前场景的语言描述和边界框坐标)作为中间推理步骤。这种方法本质上是对视觉信息的高度抽象和符号化压缩,可能导致时空关系模糊、细粒度信息丢失以及模态转换鸿沟,如图1顶部所示。对于需要深度物理世界交互的自动驾驶系统而言,其思考过程是否应更接近对世界的模拟和想象,而非单纯依赖语言逻辑推理?

受人类驾驶员直接在脑海构建未来场景视觉表征的认知机制启发(而非将思维转化为语言描述进行推理),我们提出了一种更直观的时空思维链(spatio-temporal CoT)方法,如图1底部所示。该方法避免了文本抽象带来的信息损失,使模型能以视觉化方式进行轨迹规划。具体而言,VLM作为世界模型生成统一图像帧以预测未来世界状态:受视觉提示工程(在图像上绘制红色圆圈引导模型注意力)和VLIPP(生成未来帧时先预测未来边界框以引入物理先验)的启发,我们在预测的统一帧上通过未来红色车道分隔线和3D检测框表征未来世界的空间关系。这些粗粒度视觉线索引导模型关注未来场景中的可驾驶区域和关键物体,同时施加物理合理性约束。时间关系则通过常规未来帧表征,其视觉内容的动态演变直观呈现了时间进程和场景发展的内在规律。随后,时空CoT作为中间推理步骤,使VLM能够作为逆动力学模型,基于当前观测和未来预测进行轨迹规划。与传统的离散文本CoT及图像-文本CoT方法(如图1中部所示)相比,我们的方法将未来场景表征和感知输出统一为图像格式,更有效传递了时空关系。这消除了跨模态转换(如将视觉感知转换为文本描述进行推理)导致的语义鸿沟,建立了端到端的视觉推理pipeline,使模型能够进行直接的视觉因果推理。

为赋予VLM图像生成能力,我们提出了一种预训练范式,既能保持现有MLLM的语义理解能力,又能激活其视觉生成能力。具体而言,在语义理解保持部分,我们沿用先前方法,通过视觉问答(VQA)任务实现当前场景理解。在视觉生成激活方面,我们探索了图像与文本的共享词汇空间,仅需极少量数据(约为现有方法的0.3%),无需复杂模型架构修改即可直接释放现有MLLM在自动驾驶领域的视觉生成潜力。然而,直接生成完整详细的未来场景可能违背物理规律。因此,我们提出渐进式由易到难生成方法:首先利用VLM的世界知识推理未来场景中的可行驶区域和关键物体位置,生成粗粒度未来感知图像(如车道线和3D检测),以约束物理规律;随后在该约束下生成完整未来帧以补充细粒度细节,使模型能可视化思考未来准确预测。

在轨迹规划、未来帧生成和场景理解任务上的大量实验验证了FSDrive中预训练范式和时空CoT的有效性。FSDrive通过建立像素级具身化环境关联实现道路场景理解,而非依赖人工设计的抽象语言符号,推动自动驾驶向视觉推理迈进。综上所述,我们的主要贡献包括:

  • 提出时空思维链推理方法,使模型能通过未来时空CoT的可视化思考增强轨迹规划能力。

  • 提出统一的视觉生成与理解预训练范式,同时引入从物理约束到细节补充的渐进式生成策略。

  • 在轨迹规划、未来帧生成和场景理解任务中进行全面评估,验证了FSDrive的有效性。

方法详解

预备知识

端到端轨迹规划

端到端自动驾驶直接从传感器数据生成未来轨迹,可转换为加速度和转向控制指令。给定时间步 个环视图像 ,模型 输出BEV轨迹 ,其中每个航路点 。该过程表示为:

其中 表示可选的导航指令和自车状态(如速度、加速度)。

统一视觉生成与理解

近期研究将多模态理解和视觉生成统一于单一LLM中。理解能力与标准LLM一致,生成能力通常使用VQ-VAE将图像编码为离散token。首先,图像分词器将像素 量化为离散token  (其中 为下采样因子, 表示图像码本索引)。这些 个token按光栅顺序排列,用于训练基于Transformer的自回归模型。生成时通过最大化每个token的似然值,采用通用语言建模(LM)目标自回归预测下一个token:

其中 表示视觉token, 为LLM参数。最终VQ-VAE的 detokenizer将token还原为图像像素。

视觉生成与理解的统一预训练范式

为实现统一预训练,MLLM需具备视觉生成能力。如预备知识所述,现有方法(如Lumina-mGPT)通常使用VQ-VAE编码图像,但这些token缺乏语义信息,影响下游任务性能。此外,当前方法需从零训练,依赖大规模数据集且无法利用现有LLM知识。

我们的方法基于任意使用ViT编码器的现有MLLM构建,保持原有架构以兼容预训练权重。唯一修改是将VQ-VAE的图像码本加入大模型的词汇表,将词汇空间扩展到涵盖视觉和文本的多模态空间。这一增强使MLLM能预测图像token,并通过VQ-VAE detokenizer还原图像。

视觉理解预训练

为在预训练阶段保留原始MLLM的语义理解能力(如图2左部所示),我们沿用前人方法,采用VQA任务。给定图像-文本问答对 ,其中 为当前场景的环视图像, 为指令问题,模型 生成答案

视觉生成预训练

受自动驾驶中生成未来帧以学习物理规律的世界模型启发,激活视觉生成能力后,我们让VLM预测未来帧。给定图像-指令对 ,模型通过自回归生成预测未来前视帧的下一个视觉token:

预测的token通过VQ-VAE detokenizer还原为像素。由于视频数据集中天然存在未来帧且无需标注,此方法可利用大量视频数据提升生成质量。

渐进式图像生成

直接生成完整未来场景可能违反物理规律。因此,在预训练阶段,我们提出渐进式(由易到难)生成方法,结合车道线分割和3D检测标注数据。在生成未来帧token  前,先利用VLM的世界知识推理车道线token  (作为道路场景骨架以定义可行驶区域,施加静态物理约束),再推理3D检测框token  (表示关键物体运动模式,施加动态物理约束)。这一渐进序列引导模型推断未来场景的结构布局和几何细节,最终生成符合物理规律的预测:

基于时空链式思考的视觉推理

自动驾驶规划需不仅理解当前场景,还需预见未来演变。此过程应模拟物理世界而非纯文本逻辑推理。由于模型已在预训练阶段学习物理约束,且为提高效率,我们不再单独生成车道线、3D检测和未来帧,而是将其整合为统一帧。如图2右部所示,VLM作为世界模型生成预测未来状态的统一图像帧:借鉴视觉提示工程(用红圈引导注意力)和VLIPP(先预测边界框引入物理先验),我们在预测帧中用红色车道线和3D检测框表示未来空间关系。这些粗粒度视觉线索引导模型关注可行驶区域和关键物体,同时施加物理约束。时间关系则由普通未来帧体现,视觉内容的动态演变直观呈现时间进展。随后,时空链式思考 作为中间推理步骤,使VLM作为逆动力学模型,基于当前观测和未来预测规划轨迹:

实验结果分析

结论

本文提出了FSDrive,一种基于时空CoT的自动驾驶框架,使视觉语言模型(VLMs)能够可视化地思考。通过中间图像形式的推理步骤,将未来场景生成与感知结果统一起来,FSDrive有效消除了跨模态转换带来的语义鸿沟,并建立了端到端的视觉推理流程。该视觉语言模型承担双重角色:作为世界模型,通过车道线分隔线和三维检测预测未来图像帧;同时作为逆动力学模型,基于当前观测和未来预测共同规划行驶轨迹。为实现VLM的视觉生成能力,我们提出了融合视觉生成与理解的预训练范式,并设计了渐进式由易到难地生成制以增强自回归图像生成效果。大量实验结果验证了FSDrive方法的有效性,推动自动驾驶技术迈向视觉推理。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值