自动驾驶论文速递！OCC、ECCV‘24、车道线感知、端到端~

最新推荐文章于 2025-07-10 21:07:36 发布

自动驾驶之心

最新推荐文章于 2025-07-10 21:07:36 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

文章标签：自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247670707&idx=1&sn=3c89b4ee5608fbd74c5a31149360a532&chksm=cfaa6d5971012b6b7fb2e160410530f5c1cfbc8636e9d1f9a116edc8009bfca9f1550ba7347e&scene=126&sessionid=0

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

FMOcc

基于三视角流匹配与选择性状态空间模型的高效3D占据预测

重庆理工大学与中山大学提出了 FMOcc 方法，通过融合流匹配模型和选择性状态空间模型，在 3D 语义占用预测中突破了遮挡和远距离场景的精度瓶颈，在 Occ3D-nuScenes 数据集上实现了 43.1% RayIoU 和 39.8% mIoU 的 SOTA 性能，推理内存仅需 5.4 G，时间 330 ms。

论文标题：FMOcc: TPV-Driven Flow Matching for 3D Occupancy Prediction with Selective State Space Model
链接：https://arxiv.org/abs/2507.02250

主要贡献：

提出了 FMOcc 模型，该模型基于流匹配模型和选择性状态空间模型（SSMs），用于 3D 语义占据预测。
在 Occ3D-nuScenes 和 OpenOcc 数据集上，FMOcc 的 3D 语义占据预测性能显著优于现有方法。
FMOcc 不仅能处理常规场景的 3D 占据预测，还能有效应用于低光场景、远距离目标及遮挡场景。
消融实验表明，FMOcc 的性能提升源于框架创新，其核心组件对 3D 占据预测框架具有积极影响。

算法框架：

实验结果：

可视化：

前沿的更迭速度很快，有没有一个专业的技术社区一直follow学术界的前沿研究和工业界的量产落地？带着这个想法，我们打造了『自动驾驶之心知识星球』。我们为大家准备了大额新人优惠...

大额新人优惠！欢迎扫码加入~

ECCV 2024 W-CODA

首届自动驾驶极端场景多模态感知与理解研讨会

ECCV 2024 W-CODA 研讨会的官方介绍和提案。它核心聚焦于利用多模态大模型（MLLMs）和生成式AI（AIGC）来解决自动驾驶极端场景（Corner Cases）这一关键挑战。研讨会通过论文征集、双轨挑战赛（场景理解与生成）和特邀专家报告三大核心活动，旨在推动相关领域的研究进展，弥合前沿技术与构建可靠自动驾驶系统之间的差距，并搭建学术界与工业界交流的平台。

论文标题：ECCV 2024 W-CODA: 1st Workshop on Multimodal Perception and Comprehension of Corner Cases in Autonomous Driving
论文链接：https://arxiv.org/abs/2507.01735

双轨制W-CODA挑战赛的进展曲线：

突破传统车道中心线模型：LANet——融合车道边界感知的鲁棒轨迹预测方法

韩国电子通信研究院 (ETRI)等ICACI 2025中稿工作，本文提出了一种融合车道边界等地图元素的轨迹预测模型 LANet 及高效剪枝机制 CAIP，在 Argoverse 2 数据集上将最小终点位移误差 (minFDE) 降低至 1.62 米。

论文标题：LANet: A Lane Boundaries-Aware Approach For Robust Trajectory Prediction
论文链接：https://arxiv.org/abs/2507.01308

主要贡献：

引入多种矢量地图元素（如车道边界、道路边缘等），开发有效的特征融合策略，实现对驾驶环境更丰富、完整的表征，助力模型更全面捕捉影响智能体运动的交通规则与道路约束。
提出上下文感知交互剪枝（CAIP）机制，通过学习重要性分数筛选与目标智能体最相关的地图连接，在保留关键空间和语义关系的同时降低计算开销，兼顾轨迹预测精度与效率。
在 Argoverse 2 运动预测数据集上的大量实验表明，该方法性能优于现有基于车道中心线的模型，验证了其在提升自主驾驶轨迹预测准确性和实用性上的优势。

算法框架：

实验结果：

可视化：

鲁棒多传感器高精地图构建的哪些关键因素？

三星中国研究院等机构IROS 25中稿工作，本文提出鲁棒多模态融合框架RoboMap，在13类传感器干扰下将HD地图构建的mAP提升9点（基于MapTR），抗干扰指标mRS提升最高14.3点（基于HIMap）。

论文标题：What Really Matters for Robust Multi-Sensor HD Map Construction?
论文链接：https://arxiv.org/abs/2507.01484
项目主页：https://robomap-123.github.io/

主要贡献：

构建了包含 13 种多传感器损坏类型的数据集，实现了多模态高清地图构建方法的综合鲁棒性基准测试，系统分析了模型在复杂条件下的性能。
提出了增强框架，包括数据增强、新型多模态融合模块（跨模态交互 Transformer，CIT）和模态 dropout 训练策略，在不损失精度的前提下显著提升了模型鲁棒性。
所提方法在 NuScenes 数据集的干净验证集上达到了最先进性能，同时在多传感器损坏场景下表现出优异的鲁棒性，为实际自动驾驶场景中的高清地图构建提供了可靠方案。

算法框架：

实验结果：

可视化：

VLAD

基于视觉语言模型增强的自动驾驶分层规划框架——突破端到端系统黑盒瓶颈，实现决策可解释化

日本岐阜大学与电装公司（DENSO）等ITSC中稿工作，本文提出 VLAD 框架，通过微调视觉语言模型 (VLM) 生成高层导航指令和可解释的自然语言决策，并结合端到端系统 (VAD) 进行轨迹规划，显著提升了自动驾驶安全性，在 nuScenes 数据集上将碰撞率降低了 31.82%。

论文标题：VLAD: A VLM-Augmented Autonomous Driving Framework with Hierarchical Planning and Interpretable Decision Process
论文链接：https://arxiv.org/abs/2507.01284

主要贡献：

提出 VLAD（Vision Language Autonomous Driving）混合框架，将专门微调的视觉语言模型（VLM）与最先进的端到端自动驾驶系统 VAD 集成，实现分层规划与可解释决策过程。
具备实时生成自然语言解释的能力，为每个规划决策提供透明的场景分析依据，解决端到端架构的可解释性难题。
在 nuScenes 数据集上的评估显示，VLAD 在碰撞率等安全关键指标上显著优于现有基线，证明经领域知识增强的 VLM 能提升自动驾驶轨迹规划的安全性。
首次实现将微调 VLM 同时用于分层规划监督与可解释决策过程，为可解释自动驾驶系统建立新范式。

算法框架：

实验结果：

可视化：

RTMap

基于先验地图的实时递归建图与变化检测定位系统

菜鸟无人车实验室（阿里巴巴集团）与北京师范大学合作，提出首个端到端实时众包高精地图框架RTMap，实现厘米级定位精度（横向误差0.121m，航向角误差0.368°）与57.4%的地图变化检测准确率，同步提升地图新鲜度与多任务性能。

论文标题：RTMap: Real-Time Recursive Mapping with Change Detection and Localization
论文链接：https://arxiv.org/abs/2507.00980
代码：https://github.com/CN-ADLab/RTMap

主要贡献：

提出首个端到端框架，支持多遍历在线高清地图构建，同时解决基于地图的定位、地图变化检测问题，为下游自动驾驶模块提供稳定可靠的高清地图服务。
通过定量推断感知到的矢量化高清地图元素的概率密度，结合端到端学习与显式状态估计，进一步提高定位精度。
提出众包机制，异步递归更新离线先验地图，利用推断的概率密度和变化信息提升先验辅助的在线高清地图精度。

算法框架：

实验结果：

可视化：

最后欢迎大家加入知识星球，硬核资料在星球置顶：加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图，独家业内招聘信息分享~

我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区，这里也非常欢迎优秀的同学加入我们（目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入）。我们和多家业内公司搭建了学术 + 产品+ 招聘完整的桥梁和链路，同时内部在教研板块也基本形成了闭环（课程 + 硬件+问答）。社区里面既能看到最新的行业技术动态、技术分享，也有非常多的技术讨论、入门问答，以及必不可少的行业动态及求职分享。具身智能这么火，要不要考虑转行？自动驾驶技术的未来发展趋势如何？大模型如何预自动驾驶&具身智能结合？这些都是我们持续关注的

加入后如果不满意，三天内（72h）可全额退款！