自动驾驶论文速递!OCC、ECCV‘24、车道线感知、端到端~

自动驾驶多项技术研究成果及进展

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

FMOcc

基于三视角流匹配与选择性状态空间模型的高效3D占据预测

重庆理工大学与中山大学提出了 FMOcc 方法,通过融合流匹配模型和选择性状态空间模型,在 3D 语义占用预测中突破了遮挡和远距离场景的精度瓶颈,在 Occ3D-nuScenes 数据集上实现了 43.1% RayIoU 和 39.8% mIoU 的 SOTA 性能,推理内存仅需 5.4 G,时间 330 ms。

  • 论文标题:FMOcc: TPV-Driven Flow Matching for 3D Occupancy Prediction with Selective State Space Model

  • 链接:https://arxiv.org/abs/2507.02250

主要贡献:

  1. 提出了 FMOcc 模型,该模型基于流匹配模型和选择性状态空间模型(SSMs),用于 3D 语义占据预测。

  2. 在 Occ3D-nuScenes 和 OpenOcc 数据集上,FMOcc 的 3D 语义占据预测性能显著优于现有方法。

  3. FMOcc 不仅能处理常规场景的 3D 占据预测,还能有效应用于低光场景、远距离目标及遮挡场景。

  4. 消融实验表明,FMOcc 的性能提升源于框架创新,其核心组件对 3D 占据预测框架具有积极影响。

算法框架:

实验结果:

可视化:

前沿的更迭速度很快,有没有一个专业的技术社区一直follow学术界的前沿研究和工业界的量产落地?带着这个想法,我们打造了『自动驾驶之心知识星球』。我们为大家准备了大额新人优惠...

大额新人优惠!欢迎扫码加入~

ECCV 2024 W-CODA

首届自动驾驶极端场景多模态感知与理解研讨会

ECCV 2024 W-CODA 研讨会的官方介绍和提案。它核心聚焦于利用 多模态大模型(MLLMs)和生成式AI(AIGC) 来解决 自动驾驶极端场景(Corner Cases) 这一关键挑战。研讨会通过 论文征集、双轨挑战赛(场景理解与生成) 和 特邀专家报告 三大核心活动,旨在推动相关领域的研究进展,弥合前沿技术与构建可靠自动驾驶系统之间的差距,并搭建学术界与工业界交流的平台。

  • 论文标题:ECCV 2024 W-CODA: 1st Workshop on Multimodal Perception and Comprehension of Corner Cases in Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2507.01735

双轨制W-CODA挑战赛的进展曲线:

突破传统车道中心线模型:LANet——融合车道边界感知的鲁棒轨迹预测方法

韩国电子通信研究院 (ETRI)等ICACI 2025中稿工作,本文提出了一种融合车道边界等地图元素的轨迹预测模型 LANet 及高效剪枝机制 CAIP,在 Argoverse 2 数据集上将最小终点位移误差 (minFDE) 降低至 1.62 米。

  • 论文标题:LANet: A Lane Boundaries-Aware Approach For Robust Trajectory Prediction

  • 论文链接:https://arxiv.org/abs/2507.01308

主要贡献:

  1. 引入多种矢量地图元素(如车道边界、道路边缘等),开发有效的特征融合策略,实现对驾驶环境更丰富、完整的表征,助力模型更全面捕捉影响智能体运动的交通规则与道路约束。

  2. 提出上下文感知交互剪枝(CAIP)机制,通过学习重要性分数筛选与目标智能体最相关的地图连接,在保留关键空间和语义关系的同时降低计算开销,兼顾轨迹预测精度与效率。

  3. 在 Argoverse 2 运动预测数据集上的大量实验表明,该方法性能优于现有基于车道中心线的模型,验证了其在提升自主驾驶轨迹预测准确性和实用性上的优势。

算法框架:

实验结果:

可视化:

鲁棒多传感器高精地图构建的哪些关键因素?

三星中国研究院等机构IROS 25中稿工作,本文提出鲁棒多模态融合框架RoboMap,在13类传感器干扰下将HD地图构建的mAP提升9点(基于MapTR),抗干扰指标mRS提升最高14.3点(基于HIMap)。

  • 论文标题:What Really Matters for Robust Multi-Sensor HD Map Construction?

  • 论文链接:https://arxiv.org/abs/2507.01484

  • 项目主页:https://robomap-123.github.io/

主要贡献:

  1. 构建了包含 13 种多传感器损坏类型的数据集,实现了多模态高清地图构建方法的综合鲁棒性基准测试,系统分析了模型在复杂条件下的性能。

  2. 提出了增强框架,包括数据增强、新型多模态融合模块(跨模态交互 Transformer,CIT)和模态 dropout 训练策略,在不损失精度的前提下显著提升了模型鲁棒性。

  3. 所提方法在 NuScenes 数据集的干净验证集上达到了最先进性能,同时在多传感器损坏场景下表现出优异的鲁棒性,为实际自动驾驶场景中的高清地图构建提供了可靠方案。

算法框架:

实验结果:

可视化:

VLAD

基于视觉语言模型增强的自动驾驶分层规划框架——突破端到端系统黑盒瓶颈,实现决策可解释化

日本岐阜大学与电装公司(DENSO)等ITSC中稿工作,本文提出 VLAD 框架,通过微调视觉语言模型 (VLM) 生成高层导航指令和可解释的自然语言决策,并结合端到端系统 (VAD) 进行轨迹规划,显著提升了自动驾驶安全性,在 nuScenes 数据集上将碰撞率降低了 31.82%。

  • 论文标题:VLAD: A VLM-Augmented Autonomous Driving Framework with Hierarchical Planning and Interpretable Decision Process

  • 论文链接:https://arxiv.org/abs/2507.01284

主要贡献:

  1. 提出 VLAD(Vision Language Autonomous Driving)混合框架,将专门微调的视觉语言模型(VLM)与最先进的端到端自动驾驶系统 VAD 集成,实现分层规划与可解释决策过程。

  2. 具备实时生成自然语言解释的能力,为每个规划决策提供透明的场景分析依据,解决端到端架构的可解释性难题。

  3. 在 nuScenes 数据集上的评估显示,VLAD 在碰撞率等安全关键指标上显著优于现有基线,证明经领域知识增强的 VLM 能提升自动驾驶轨迹规划的安全性。

  4. 首次实现将微调 VLM 同时用于分层规划监督与可解释决策过程,为可解释自动驾驶系统建立新范式。

算法框架:

实验结果:

可视化:

RTMap

基于先验地图的实时递归建图与变化检测定位系统

菜鸟无人车实验室(阿里巴巴集团)与北京师范大学合作,提出首个端到端实时众包高精地图框架RTMap,实现厘米级定位精度(横向误差0.121m,航向角误差0.368°)与57.4%的地图变化检测准确率,同步提升地图新鲜度与多任务性能。

  • 论文标题:RTMap: Real-Time Recursive Mapping with Change Detection and Localization

  • 论文链接:https://arxiv.org/abs/2507.00980

  • 代码:https://github.com/CN-ADLab/RTMap

主要贡献:

  1. 提出首个端到端框架,支持多遍历在线高清地图构建,同时解决基于地图的定位、地图变化检测问题,为下游自动驾驶模块提供稳定可靠的高清地图服务。

  2. 通过定量推断感知到的矢量化高清地图元素的概率密度,结合端到端学习与显式状态估计,进一步提高定位精度。

  3. 提出众包机制,异步递归更新离线先验地图,利用推断的概率密度和变化信息提升先验辅助的在线高清地图精度。

算法框架:

实验结果:

可视化:

最后欢迎大家加入知识星球,硬核资料在星球置顶:加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图,独家业内招聘信息分享~

我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们(目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求职分享。具身智能这么火,要不要考虑转行?自动驾驶技术的未来发展趋势如何?大模型如何预自动驾驶&具身智能结合?这些都是我们持续关注的

加入后如果不满意,三天内(72h)可全额退款!

### BEV(Bird's Eye View)感知范式 BEV感知是一种基于鸟瞰视角的环境感知方法,广泛应用于自动驾驶系统中,以提供车辆周围环境的全面表示。其核心思想是将多视角相机采集的2D图像信息转换为统一的3D空间表示,便于后续的感知任务如语义分割、目标检测和地图预测等。 BEV感知的流程主要包括三个部分: 1. **图像编码器**:使用卷积神经网络(CNN)或Transformer架构,从多视角相机图像中提取2D特征。 2. **视觉投影模块**:将2D特征转换为3D空间中的BEV特征。这一过程可以采用基于几何的方法(如逆透视变换IPM)或完全基于数据学习的方法(如使用Transformer进行特征对齐)[^2]。 3. **解码器**:基于BEV特征执行感知任务,例如目标检测、语义分割等。 BEV感知的优势在于其能够将多视角信息统一到一个全局坐标系下,从而提升感知的精度和鲁棒性。此外,BEV表示可以更好地支持下游的规划和控制模块,因为它提供了车辆周围环境的全局视角。 ### Occupancy(Occ感知范式 Occupancy感知是一种基于三维空间占用的感知方法,旨在对自动驾驶车辆周围的三维空间进行体素化建模。与BEV不同,Occ感知不仅关注水平面的信息,还试图理解整个三维空间的结构,包括被遮挡区域。 Occ感知的核心原理是通过将空间划分为三维体素(voxel),并预测每个体素是否被占据。这一过程通常涉及以下几个步骤: 1. **特征提取**:从多视角相机或激光雷达中提取特征。 2. **三维投影与融合**:将2D特征或点云数据投影到三维空间,并进行多模态融合。 3. **体素分类**:对每个体素进行分类,判断其是否被占据。 Occ感知的优势在于其能够提供更丰富的三维空间信息,有助于理解复杂场景中的遮挡关系和物体的空间分布。然而,Occ任务的困难之处在于数据生成、数据优化、模型优化和模型监督等方面的挑战。例如,生成高质量的三维标注数据需要大量的计算资源和人工标注成本,而模型优化则需要处理高维空间带来的计算复杂性[^1]。 ### BEV与Occ的比较 | 特性 | BEV感知范式 | Occ感知范式 | |---------------------|--------------------------------------|--------------------------------------| | 空间表示 | 二维鸟瞰视角 | 三维体素化表示 | | 数据来源 | 多视角相机 | 多视角相机或激光雷达 | | 应用场景 | 语义分割、目标检测、地图预测 | 三维空间建模、遮挡理解 | | 计算复杂性 | 相对较低 | 较高 | | 数据标注成本 | 相对较低 | 高 | | 模型优化难度 | 相对容易 | 复杂 | ### 示例代码:BEV感知中的特征转换 以下是一个简化的BEV感知中特征转换的示例代码,使用PyTorch实现: ```python import torch import torch.nn as nn class BEVFeatureTransformer(nn.Module): def __init__(self, in_channels, out_channels): super(BEVFeatureTransformer, self).__init__() self.conv = nn.Conv2d(in_channels, out_channels, kernel_size=1) self.upsample = nn.Upsample(scale_factor=2, mode='bilinear', align_corners=True) def forward(self, x): # 假设输入x为2D特征图 x = self.conv(x) # 进行上采样以生成BEV特征 bev_features = self.upsample(x) return bev_features # 示例输入 input_features = torch.randn(1, 64, 32, 32) # batch_size x channels x height x width model = BEVFeatureTransformer(64, 128) bev_features = model(input_features) print(bev_features.shape) # 输出BEV特征的形状 ``` ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值