ICML'25 | Sce2DriveX:用于场景到驾驶学习的可泛化MLLM框架

作者 | 自动驾驶专栏 编辑 | 自动驾驶专栏

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『LLM』技术交流群

本文只做学术分享,如有侵权,联系删文

bca271131d66a12f16c2d12636795799.png

  • 论文链接:https://arxiv.org/pdf/2502.14917

图片

摘要

图片

本文介绍了Sce2DriveX:用于场景到驾驶学习的可泛化MLLM框架。端到端自动驾驶直接将原始传感器输入映射到低级车辆控制,它是具身AI的重要组成部分。尽管目前已经在将多模态大型语言模型(MLLMs)应用于高级交通场景语义理解方面取得了成功,但是将这些概念语义理解有效地转化为低级运动控制指令和在跨场景驾驶中实现泛化和共识仍然具有挑战性。本文引入了Sce2DriveX,这是一种类人的驾驶思维链(CoT)推理MLLM框架。Sce2DriveX利用局部场景视频和全局BEV地图中的多模态联合学习,以深入理解远距离时空关系和道路拓扑,从而增强其在3D动态/静态场景中的全面感知和推理能力,并且实现了跨场景的驾驶泛化。在此基础上,它重建了人类驾驶固有的隐式认知链,涵盖了场景理解、元行为推理、行为解释分析、运动规划和控制,从而进一步缩小了自动驾驶和人类思维过程之间的差距。为了提高模型性能,本文开发了首个为3D空间理解和长轴任务推理专门设计的视觉问答(VQA)驾驶指令数据集。大量实验表明,Sce2DriveX从场景理解到端到端驾驶均实现了最先进的性能,并且在CARLA Bench2Drive基准上实现了鲁棒的泛化性。

图片

主要贡献

图片

本文的主要贡献总结如下:

1)本文提出了Sce2DriveX,这是类人的CoT推理MLLM框架,旨在实现从多视图远距离场景理解到行为分析、运动规划和车辆控制驾驶过程的渐进推理学习;

2)本文构建了首个用于3D空间理解和长轴任务推理的综合VQA驾驶指令数据集,并且引入了一个面向任务的三阶段训练过程,以提高Sce2DriveX的感知推理能力;

3)大量实验表明,Sce2DriveX在场景理解、元行为推理、行为解释分析、运动规划和控制信号生成等任务中实现了最先进的性能。

图片

论文图片和表格

图片

494e88983d40869d4ba97e6dce11919c.png

e334d60fac675de1c180fe15c1a6e545.png

1c1026a919f6bba6727e977216f05c6b.png

49bb404faa892b28d74723014283d37c.png

a2217df60205ab42dc7ece14e4709391.png

74fb30cca6b6207409169101e0f43ca9.png

8f6c4ae616c1e280dcfab7fe702b3790.png

a0dc171270891e8c726543eea9b9bd90.png

b5f5ae6ef547dc30c4967327ca98995f.png

图片

总结

图片

本文提出了Sce2DriveX,它实现了从分层场景理解到可解释端到端驾驶的渐进推理。通过对局部场景和全局地图进行多模态学习,Sce2DriveX深入理解了远距离时空关系和道路拓扑,从而增强了跨场景驾驶的泛化和共识。本文构建了首个用于3D空间理解和长轴任务推理的综合VQA驾驶数据集,并且引入了面向任务的三阶段监督微调。实验结果表明,Sce2DriveX在场景理解、元行为推理、行为判断、运动规划和控制信号生成方面表现出色。本文希望,该工作能够为MLLM在自动驾驶中的应用提供见解。

① 自动驾驶论文辅导来啦

27afc29917ab9db1a3f73b08b29fc6a9.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

ee77d93e0282fe98b234b5a009d9e075.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

f054ec1f9ef24da40abdbfbac2d6965a.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

418b70267725b7300dfc2c147df0efc3.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值