点击下方卡片,关注“自动驾驶之心”公众号
中科院 & 理想 ICCV'25 World4Drive
中科院自动化所(CASIA)、理想汽车(Li Auto)等机构提出无感知标注的端到端自动驾驶框架World4Drive,通过融合视觉基础模型的空间语义先验与多模态驾驶意图建模,在nuScenes和NavSim基准上实现L2误差降低18.1%(0.61m→0.50m)、碰撞率下降46.7%(0.30%→0.16%)、训练收敛速度提升3.75倍。
论文标题:World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model
论文链接:https://arxiv.org/abs/2507.00603
项目主页:https://github.com/ucaszyp/World4Drive
主要贡献:
提出意图感知的潜在世界模型,通过模拟不同驾驶意图下物理世界的演化过程,实现多模态轨迹的生成与评估,贴近人类驾驶员的决策逻辑。
设计驾驶世界编码模块,整合视觉基础模型的空间 - 语义先验知识(如 metric 深度估计模型和视觉语言模型),提取富含物理场景上下文的世界潜在表征,无需感知标注即可实现场景理解。
在 open-loop nuScenes 和 closed-loop NavSim 基准上,以无感知标注的方式实现了 state-of-the-art 规划性能,同时训练收敛速度提升 3.75 倍。
算法框架:

实验结果:


可视化:

欢迎大家加入知识星球,硬核资料在星球置顶:加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图,独家业内招聘信息分享~最新技术第一时间掌握!
加入后如果不满意,三天内(72h)可全额退款!
清华 ICML'25 SafeMap
清华大学等机构提出 SafeMap 框架,通过动态高斯采样与全景特征蒸馏,首次实现不完整多视角观测下的鲁棒高精地图构建,在 nuScenes 数据集缺失关键视角时,mAP 相对基线模型提升 11.1%(如缺失前视角时 mAP 从 31.3% → 42.4%)。
论文标题:SafeMap: Robust HD Map Construction from Incomplete Observations
论文链接:https://arxiv.org/abs/2507.00861
主要贡献:
提出了一种名为 SafeMap 的新型框架,专为在摄像头视图缺失时仍能保持高精地图构建准确性而设计,其核心包含两个创新模块:基于高斯的透视视图重建(G-PVR)模块和基于蒸馏的鸟瞰图校正(D-BEVC)模块。
G-PVR 模块利用视图重要性先验知识,通过高斯基参考点采样和可变形注意力,动态聚焦于可用视图中最具信息的区域,以推断缺失视图信息;D-BEVC 模块利用完整全景鸟瞰图(BEV)特征校正从不完整观测中提取的 BEV 表示。
实验验证表明,SafeMap 在完整和不完整观测场景下均显著优于现有方法(如 MapTR、HIMap),且易于实现、可无缝集成到现有系统中,为高精地图构建提供了即插即用的鲁棒性增强方案。
算法框架:

实验结果:



可视化:


TopoStreamer
香港中文大学(深圳)、腾讯等机构提出TopoStreamer时序感知模型,通过动态位置编码与多属性约束突破车道拓扑推理的时序一致性瓶颈,在OpenLane-V2数据集上实现车道段感知任务mAP提升3.4%(达36.6%),中心线感知任务OLS提升2.1%(达44.4%)。
论文标题:TopoStreamer: Temporal Lane Segment Topology Reasoning in Autonomous Driving
论文链接:https://arxiv.org/abs/2507.00709
代码:https://github.com/YimingYang23/TopoStreamer
主要贡献:
提出 TopoStreamer,一种用于自动驾驶车道拓扑推理的新型时序车道段感知方法,为端到端网络引入三个创新模块。
设计流属性约束模块,确保时序传播中车道中心线、边界坐标及其分类的时序一致性;动态车道边界位置编码模块,增强查询中最新位置信息的学习;车道去噪模块,改进特征表示学习,以提升位置估计、拓扑连接和类别预测性能。
提出一种新的车道边界分类准确率指标,用于评估自动驾驶车道变更决策系统性能。
在 OpenLane-V2 基准数据集上的大量实验表明,TopoStreamer 在车道段拓扑推理中实现了最先进(SOTA)性能。
算法框架:


实验结果:


可视化:



BEV-VAE
上海期智研究院与清华大学提出BEV-VAE框架,通过构建鸟瞰图隐空间实现自动驾驶场景的多视角图像生成与3D布局精准控制,在Argoverse 2数据集上达到0.9505的空间一致性指标(MVSC),支持任意相机位姿合成与物体编辑。
论文标题:BEV-VAE: Multi-view Image Generation with Spatial Consistency for Autonomous Driving
论文链接:https://arxiv.org/abs/2507.00707
代码:https://github.com/Czm369/bev-vae
主要贡献:
提出了一种构建空间对齐的 BEV 表示的框架,能够从多视图图像中学习,实现高保真重建并保证强跨视图一致性。
验证了所学习的 BEV 潜在空间支持通过调整相机姿态进行新视图合成,证明其具备结构化 3D 属性和空间连贯性。
在 BEV 空间中实例化基于扩散的生成过程,支持基于 3D 物体布局(如数量、位置、类别)的可控合成。
算法框架:

实验结果:


可视化:


最后欢迎大家加入知识星球,硬核资料在星球置顶:加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图,独家业内招聘信息分享~
我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们(目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求职分享。具身智能这么火,要不要考虑转行?自动驾驶技术的未来发展趋势如何?大模型如何预自动驾驶&具身智能结合?这些都是我们持续关注的
加入后如果不满意,三天内(72h)可全额退款!