时空视觉推理SOTA!FSDrive:基于时空CoT可视化的思考(高德和西交)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享高德和西交团队最新的工作!FSDrive: 利用时空CoT可视化的思考!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『视觉大语言模型』技术交流群

论文作者 | Shuang Zeng等

编辑 | 自动驾驶之心  

写在前面 & 笔者的个人理解

视觉语言模型(VLMs)因其强大的推理能力,在自动驾驶领域受到日益广泛的关注。然而,现有VLMs通常采用针对特定场景设计的离散文本思维链(Chain-of-Thought, CoT),这种表征本质上是对视觉信息的高度抽象和符号化压缩,可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模,而非纯粹依赖符号逻辑?本文提出一种时空思维链(spatio-temporal CoT)推理方法,使模型可视化地思考。首先,VLM作为世界模型生成统一图像帧以预测未来世界状态:其中感知结果(如车道分隔线和3D检测)表征未来的空间关系,普通未来帧则表征时间演化的动态关系。该时空思维链作为中间推理步骤,使VLM能够充当逆动力学模型,基于当前观测和未来预测进行轨迹规划。为实现VLM的视觉生成能力,提出了统一视觉生成与理解的预训练范式,并设计渐进式生成过程增强自回归图像生成方法。大量实验结果验证了该方法的有效性,推动自动驾驶迈向视觉推理。

  • 项目链接:https://misstl.github.io/FSDrive.github.io

  • 论文链接:https://arxiv.org/abs/2505.17685

  • 代码链接:https://github.com/missTL/FSDrive

关键词:视觉-语言模型(Vision-Language Models, VLMs)、链式思维(Chain-of-Thought, CoT)推理、自动驾驶、统一视觉生成与理解预训练

简介

近年来,鉴于多模态大语言模型(MLLMs)在世界知识、推理能力和可解释性方面的卓越表现,它们已被广泛应用于自动驾驶领域。一个具有前景的方向是端到端视觉-语言-动作(VLA)模型,该模型利用预训练视觉-语言模型(VLM)直接从视觉观测和语言指令中提取场景特征,进而生成车辆控制指令(如速度和轨迹)。这种范式不仅简化了系统架构并最小化信息损失,还能利用模型的世界知识分析驾驶环境,在复杂场景中进行安全决策的推理。

在语言领域,思维链(CoT)通过鼓励逐步推理显著提升了推理能力和可解释性。然而,现有自动驾驶研究通常将离散文本CoT(如针对当前场景的语言描述和边界框坐标)作为中间推理步骤。这种方法本质上是对视觉信息的高度抽象和符号化压缩,可能导致时空关系模糊、细粒度信息丢失以及模态转换鸿沟,如图1顶部所示。对于需要深度物理世界交互的自动驾驶系统而言,其思考过程是否应更接近对世界的模拟和想象,而非单纯依赖语言逻辑推理?

受人类驾驶员直接在脑海构建未来场景视觉表征的认知机制启发(而非将思维转化为语言描述进行推理),我们提出了一种更直观的时空思维链(spatio-temporal CoT)方法,如图1底部所示。该方法避免了文本抽象带来的信息损失,使模型能以视觉化方式进行轨迹规划。具体而言,VLM作为世界模型生成统一图像帧以预测未来世界状态:受视觉提示工程(在图像上绘制红色圆圈引导模型注意力)和VLIPP(生成未来帧时先预测未来边界框以引入物理先验)的启发,我们在预测的统一帧上通过未来红色车道分隔线和3D检测框表征未来世界的空间关系。这些粗粒度视觉线索引导模型关注未来场景中的可驾驶区域和关键物体,同时施加物理合理性约束。时间关系则通过常规未来帧表征,其视觉内容的动态演变直观呈现了时间进程和场景发展的内在规律。随后,时空CoT作为中间推理步骤,使VLM能够作为逆动力学模型,基于当前观测和未来预测进行轨迹规划。与传统的离散文本CoT及图像-文本CoT方法(如图1中部所示)相比,我们的方法将未来场景表征和感知输出统一为图像格式,更有效传递了时空关系。这消除了跨模态转换(如将视觉感知转换为文本描述进行推理)导致的语义鸿沟,建立了端到端的视觉推理pipeline,使模型能够进行直接的视觉因果推理。

为赋予VLM图像生成能力,我们提出了一种预训练范式,既能保持现有MLLM的语义理解能力,又能激活其视觉生成能力。具体而言,在语义理解保持部分,我们沿用先前方法,通过视觉问答(VQA)任务实现当前场景理解。在视觉生成激活方面,我们探索了图像与文本的共享词汇空间,仅需极少量数据(约为现有方法的0.3%),无需复杂模型架构修改即可直接释放现有MLLM在自动驾驶领域的视觉生成潜力。然而,直接生成完整详细的未来场景可能违背物理规律。因此,我们提出渐进式由易到难生成方法:首先利用VLM的世界知识推理未来场景中的可行驶区域和关键物体位置,生成粗粒度未来感知图像(如车道线和3D检测),以约束物理规律;随后在该约束下生成完整未来帧以补充细粒度细节,使模型能可视化思考未来准确预测。

在轨迹规划、未来帧生成和场景理解任务上的大量实验验证了FSDrive中预训练范式和时空CoT的有效性。FSDrive通过建立像素级具身化环境关联实现道路场景理解,而非依赖人工设计的抽象语言符号,推动自动驾驶向视觉推理迈进。综上所述,我们的主要贡献包括:

  • 提出时空思维链推理方法,使模型能通过未来时空CoT的可视化思考增强轨迹规划能力。

  • 提出统一的视觉生成与理解预训练范式,同时引入从物理约束到细节补充的渐进式生成策略。

  • 在轨迹规划、未来帧生成和场景理解任务中进行全面评估,验证了FSDrive的有效性。

方法详解

预备知识

端到端轨迹规划

端到端自动驾驶直接从传感器数据生成未来轨迹,可转换为加速度和转向控制指令。给定时间步 个环视图像 ,模型 输出BEV轨迹

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值