点击下方卡片,关注“自动驾驶之心”公众号
FMOcc
基于三视角流匹配与选择性状态空间模型的高效3D占据预测
重庆理工大学与中山大学提出了 FMOcc 方法,通过融合流匹配模型和选择性状态空间模型,在 3D 语义占用预测中突破了遮挡和远距离场景的精度瓶颈,在 Occ3D-nuScenes 数据集上实现了 43.1% RayIoU 和 39.8% mIoU 的 SOTA 性能,推理内存仅需 5.4 G,时间 330 ms。
论文标题:FMOcc: TPV-Driven Flow Matching for 3D Occupancy Prediction with Selective State Space Model
链接:https://arxiv.org/abs/2507.02250
主要贡献:
提出了 FMOcc 模型,该模型基于流匹配模型和选择性状态空间模型(SSMs),用于 3D 语义占据预测。
在 Occ3D-nuScenes 和 OpenOcc 数据集上,FMOcc 的 3D 语义占据预测性能显著优于现有方法。
FMOcc 不仅能处理常规场景的 3D 占据预测,还能有效应用于低光场景、远距离目标及遮挡场景。
消融实验表明,FMOcc 的性能提升源于框架创新,其核心组件对 3D 占据预测框架具有积极影响。
算法框架:


实验结果:


可视化:


前沿的更迭速度很快,有没有一个专业的技术社区一直follow学术界的前沿研究和工业界的量产落地?带着这个想法,我们打造了『自动驾驶之心知识星球』。我们为大家准备了大额新人优惠...
大额新人优惠!欢迎扫码加入~
ECCV 2024 W-CODA
首届自动驾驶极端场景多模态感知与理解研讨会
ECCV 2024 W-CODA 研讨会的官方介绍和提案。它核心聚焦于利用 多模态大模型(MLLMs)和生成式AI(AIGC) 来解决 自动驾驶极端场景(Corner Cases) 这一关键挑战。研讨会通过 论文征集、双轨挑战赛(场景理解与生成) 和 特邀专家报告 三大核心活动,旨在推动相关领域的研究进展,弥合前沿技术与构建可靠自动驾驶系统之间的差距,并搭建学术界与工业界交流的平台。
论文标题:ECCV 2024 W-CODA: 1st Workshop on Multimodal Perception and Comprehension of Corner Cases in Autonomous Driving
论文链接:https://arxiv.org/abs/2507.01735
双轨制W-CODA挑战赛的进展曲线:

突破传统车道中心线模型:LANet——融合车道边界感知的鲁棒轨迹预测方法
韩国电子通信研究院 (ETRI)等ICACI 2025中稿工作,本文提出了一种融合车道边界等地图元素的轨迹预测模型 LANet 及高效剪枝机制 CAIP,在 Argoverse 2 数据集上将最小终点位移误差 (minFDE) 降低至 1.62 米。
论文标题:LANet: A Lane Boundaries-Aware Approach For Robust Trajectory Prediction
论文链接:https://arxiv.org/abs/2507.01308
主要贡献:
引入多种矢量地图元素(如车道边界、道路边缘等),开发有效的特征融合策略,实现对驾驶环境更丰富、完整的表征,助力模型更全面捕捉影响智能体运动的交通规则与道路约束。
提出上下文感知交互剪枝(CAIP)机制,通过学习重要性分数筛选与目标智能体最相关的地图连接,在保留关键空间和语义关系的同时降低计算开销,兼顾轨迹预测精度与效率。
在 Argoverse 2 运动预测数据集上的大量实验表明,该方法性能优于现有基于车道中心线的模型,验证了其在提升自主驾驶轨迹预测准确性和实用性上的优势。
算法框架:


实验结果:


可视化:

鲁棒多传感器高精地图构建的哪些关键因素?
三星中国研究院等机构IROS 25中稿工作,本文提出鲁棒多模态融合框架RoboMap,在13类传感器干扰下将HD地图构建的mAP提升9点(基于MapTR),抗干扰指标mRS提升最高14.3点(基于HIMap)。
论文标题:What Really Matters for Robust Multi-Sensor HD Map Construction?
论文链接:https://arxiv.org/abs/2507.01484
项目主页:https://robomap-123.github.io/
主要贡献:
构建了包含 13 种多传感器损坏类型的数据集,实现了多模态高清地图构建方法的综合鲁棒性基准测试,系统分析了模型在复杂条件下的性能。
提出了增强框架,包括数据增强、新型多模态融合模块(跨模态交互 Transformer,CIT)和模态 dropout 训练策略,在不损失精度的前提下显著提升了模型鲁棒性。
所提方法在 NuScenes 数据集的干净验证集上达到了最先进性能,同时在多传感器损坏场景下表现出优异的鲁棒性,为实际自动驾驶场景中的高清地图构建提供了可靠方案。
算法框架:

实验结果:



可视化:



VLAD
基于视觉语言模型增强的自动驾驶分层规划框架——突破端到端系统黑盒瓶颈,实现决策可解释化
日本岐阜大学与电装公司(DENSO)等ITSC中稿工作,本文提出 VLAD 框架,通过微调视觉语言模型 (VLM) 生成高层导航指令和可解释的自然语言决策,并结合端到端系统 (VAD) 进行轨迹规划,显著提升了自动驾驶安全性,在 nuScenes 数据集上将碰撞率降低了 31.82%。
论文标题:VLAD: A VLM-Augmented Autonomous Driving Framework with Hierarchical Planning and Interpretable Decision Process
论文链接:https://arxiv.org/abs/2507.01284
主要贡献:
提出 VLAD(Vision Language Autonomous Driving)混合框架,将专门微调的视觉语言模型(VLM)与最先进的端到端自动驾驶系统 VAD 集成,实现分层规划与可解释决策过程。
具备实时生成自然语言解释的能力,为每个规划决策提供透明的场景分析依据,解决端到端架构的可解释性难题。
在 nuScenes 数据集上的评估显示,VLAD 在碰撞率等安全关键指标上显著优于现有基线,证明经领域知识增强的 VLM 能提升自动驾驶轨迹规划的安全性。
首次实现将微调 VLM 同时用于分层规划监督与可解释决策过程,为可解释自动驾驶系统建立新范式。
算法框架:

实验结果:


可视化:


RTMap
基于先验地图的实时递归建图与变化检测定位系统
菜鸟无人车实验室(阿里巴巴集团)与北京师范大学合作,提出首个端到端实时众包高精地图框架RTMap,实现厘米级定位精度(横向误差0.121m,航向角误差0.368°)与57.4%的地图变化检测准确率,同步提升地图新鲜度与多任务性能。
论文标题:RTMap: Real-Time Recursive Mapping with Change Detection and Localization
论文链接:https://arxiv.org/abs/2507.00980
代码:https://github.com/CN-ADLab/RTMap
主要贡献:
提出首个端到端框架,支持多遍历在线高清地图构建,同时解决基于地图的定位、地图变化检测问题,为下游自动驾驶模块提供稳定可靠的高清地图服务。
通过定量推断感知到的矢量化高清地图元素的概率密度,结合端到端学习与显式状态估计,进一步提高定位精度。
提出众包机制,异步递归更新离线先验地图,利用推断的概率密度和变化信息提升先验辅助的在线高清地图精度。
算法框架:


实验结果:


可视化:

最后欢迎大家加入知识星球,硬核资料在星球置顶:加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图,独家业内招聘信息分享~
我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们(目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求职分享。具身智能这么火,要不要考虑转行?自动驾驶技术的未来发展趋势如何?大模型如何预自动驾驶&具身智能结合?这些都是我们持续关注的
加入后如果不满意,三天内(72h)可全额退款!