自动驾驶一周论文精选！端到端、VLA、感知、决策等~

最新推荐文章于 2025-12-10 17:48:27 发布

转载最新推荐文章于 2025-12-10 17:48:27 发布 · 345 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247675598&idx=1&sn=5cf9414dc401549e0b17a52117f9ea18&chksm=cf00c03975ba8e5fd863dac895f8e39ed0c76ff0d93a91f95981dcd5aecf20133daf52d46647&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

最近自动驾驶相关的论文挺多的，自动驾驶之心汇总了近期还不错的一些工作。涉及端到端、感知、VLM、BenchMark等多个领域，更多内容欢迎加入自动驾驶之心知识星球获取~

自动驾驶之心知识星球截止到目前已经完成了产业、学术、求职、问答交流等多个领域的闭环。星球内部为大家梳理了近40+技术路线，无论你是咨询行业应用、还是要找最新的VLA benchmark、综述和学习入门路线，都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾，都是活跃在一线产业界和工业界的大佬（经常出现的顶会和各类访谈中哦）。欢迎随时提问，他们将会为大家答疑解惑。

端到端自动驾驶

中科大GMF-Drive：基于门控Mamba融合与空间感知BEV表征的端到端自动驾驶
论文标题：GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving
ME³-BEV：清华&比亚迪提出Mamba增强的BEV感知端到端自动驾驶深度强化学习框架
论文标题：ME3-BEV: Mamba-Enhanced Deep Reinforcement Learning for End-to-End Autonomous Driving with BEV-Perception
慕尼黑工业大学提出SpaRC-AD：面向端到端自动驾驶的RV融合基准框架
论文标题：SpaRC-AD: A Baseline for Radar-Camera Fusion in End-to-End Autonomous Driving
博世联合清华等提出IRL-VLA：免仿真器强化学习训练VLA驾驶大模型，CVPR亚军方案！
论文标题：IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model
新加坡国立大学、清华大学与小米汽车团队提出EvaDrive：基于进化对抗策略优化的端到端自动驾驶闭环决策框架
论文标题：EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving

自动驾驶感知 & VLM

VISTA：基于视觉语言模型与少样本学习的动态环境驾驶员注意力时空预测及自然语言解释
论文标题：VISTA: Vision-Language Imitation of Situational Thinking and Attention for Human-Like Driver Focus in Dynamic Environments
安全关键型自动驾驶的渐进式BEV感知技术：A Comprehensive Survey
论文标题：Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey
CBDES MoE：面向自动驾驶功能模块的分层解耦专家混合模型——清华团队提出首个模块级动态路由架构
论文标题：CBDES MoE: Hierarchically Decoupled Mixture-of-Experts for Functional Modules in Autonomous Driving
清华团队提出基于特征图质量评分的自动驾驶模型解耦式功能评估
论文标题：Decoupled Functional Evaluation of Autonomous Driving Models via Feature Map Quality Scoring
加拿大温莎大学与北海道大学提出RMT-PPAD：基于Transformer与门控适配器的实时多任务驾驶全景感知模型
论文标题：RMT-PPAD: Real-time Multi-task Learning for Panoptic Perception in Autonomous Driving
慕尼黑工业大学提出 Dream-to-Recon：基于扩散-深度蒸馏的单目图像三维场景重建
论文标题：Dream-to-Recon: Monocular 3D Reconstruction with Diffusion-Depth Distillation from Single Images
清华大学提出VLM-3D：面向开放世界的端到端视觉语言模型驱动3D感知
论文标题：VLM-3D:End-to-End Vision-Language Models for Open-World 3D Perception
马来亚大学团队发布视觉推理权威综述：提出统一框架，解析关系/符号/时序/因果/常识五大推理范式
论文标题：Reasoning in Computer Vision: Taxonomy, Models, Tasks, and Methodologies

决策规控领域

代尔夫特理工大学：交互感知自动驾驶控制器评测
论文标题：Towards Human-Centric Evaluation of Interaction-Aware Automated Vehicle Controllers: A Framework and Case Study
主动推理：消除奖励依赖的自主智能体决策框架——IBM研究院提出LLM-AIF融合架构
论文标题：The Missing Reward: Active Inference in the Era of Experience