ICML'25 | Sce2DriveX：用于场景到驾驶学习的可泛化MLLM框架

最新推荐文章于 2025-12-02 10:08:59 发布

转载最新推荐文章于 2025-12-02 10:08:59 发布 · 216 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247656798&idx=5&sn=694b2cad057c2d9fe1de4d7db4cefe8e&chksm=cfaaccf2b272fc30d57888fbdabe107c7c43e1aee0d41f615cb5cc03375dd5c8b410cff5d596&scene=126&sessionid=0

文章标签：

#学习

作者 | 自动驾驶专栏编辑 | 自动驾驶专栏

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『LLM』技术交流群

本文只做学术分享，如有侵权，联系删文

论文链接：https://arxiv.org/pdf/2502.14917

摘要

本文介绍了Sce2DriveX：用于场景到驾驶学习的可泛化MLLM框架。端到端自动驾驶直接将原始传感器输入映射到低级车辆控制，它是具身AI的重要组成部分。尽管目前已经在将多模态大型语言模型（MLLMs）应用于高级交通场景语义理解方面取得了成功，但是将这些概念语义理解有效地转化为低级运动控制指令和在跨场景驾驶中实现泛化和共识仍然具有挑战性。本文引入了Sce2DriveX，这是一种类人的驾驶思维链（CoT）推理MLLM框架。Sce2DriveX利用局部场景视频和全局BEV地图中的多模态联合学习，以深入理解远距离时空关系和道路拓扑，从而增强其在3D动态/静态场景中的全面感知和推理能力，并且实现了跨场景的驾驶泛化。在此基础上，它重建了人类驾驶固有的隐式认知链，涵盖了场景理解、元行为推理、行为解释分析、运动规划和控制，从而进一步缩小了自动驾驶和人类思维过程之间的差距。为了提高模型性能，本文开发了首个为3D空间理解和长轴任务推理专门设计的视觉问答（VQA）驾驶指令数据集。大量实验表明，Sce2DriveX从场景理解到端到端驾驶均实现了最先进的性能，并且在CARLA Bench2Drive基准上实现了鲁棒的泛化性。

主要贡献

本文的主要贡献总结如下：

1）本文提出了Sce2DriveX，这是类人的CoT推理MLLM框架，旨在实现从多视图远距离场景理解到行为分析、运动规划和车辆控制驾驶过程的渐进推理学习；

2）本文构建了首个用于3D空间理解和长轴任务推理的综合VQA驾驶指令数据集，并且引入了一个面向任务的三阶段训练过程，以提高Sce2DriveX的感知推理能力；

3）大量实验表明，Sce2DriveX在场景理解、元行为推理、行为解释分析、运动规划和控制信号生成等任务中实现了最先进的性能。

论文图片和表格

总结

本文提出了Sce2DriveX，它实现了从分层场景理解到可解释端到端驾驶的渐进推理。通过对局部场景和全局地图进行多模态学习，Sce2DriveX深入理解了远距离时空关系和道路拓扑，从而增强了跨场景驾驶的泛化和共识。本文构建了首个用于3D空间理解和长轴任务推理的综合VQA驾驶数据集，并且引入了面向任务的三阶段监督微调。实验结果表明，Sce2DriveX在场景理解、元行为推理、行为判断、运动规划和控制信号生成方面表现出色。本文希望，该工作能够为MLLM在自动驾驶中的应用提供见解。

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）