自动驾驶论文速递!OCC、ECCV‘24、车道线感知、端到端~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

FMOcc

基于三视角流匹配与选择性状态空间模型的高效3D占据预测

重庆理工大学与中山大学提出了 FMOcc 方法,通过融合流匹配模型和选择性状态空间模型,在 3D 语义占用预测中突破了遮挡和远距离场景的精度瓶颈,在 Occ3D-nuScenes 数据集上实现了 43.1% RayIoU 和 39.8% mIoU 的 SOTA 性能,推理内存仅需 5.4 G,时间 330 ms。

  • 论文标题:FMOcc: TPV-Driven Flow Matching for 3D Occupancy Prediction with Selective State Space Model

  • 链接:https://arxiv.org/abs/2507.02250

主要贡献:

  1. 提出了 FMOcc 模型,该模型基于流匹配模型和选择性状态空间模型(SSMs),用于 3D 语义占据预测。

  2. 在 Occ3D-nuScenes 和 OpenOcc 数据集上,FMOcc 的 3D 语义占据预测性能显著优于现有方法。

  3. FMOcc 不仅能处理常规场景的 3D 占据预测,还能有效应用于低光场景、远距离目标及遮挡场景。

  4. 消融实验表明,FMOcc 的性能提升源于框架创新,其核心组件对 3D 占据预测框架具有积极影响。

算法框架:

实验结果:

可视化:

前沿的更迭速度很快,有没有一个专业的技术社区一直follow学术界的前沿研究和工业界的量产落地?带着这个想法,我们打造了『自动驾驶之心知识星球』。我们为大家准备了大额新人优惠...

大额新人优惠!欢迎扫码加入~

ECCV 2024 W-CODA

首届自动驾驶极端场景多模态感知与理解研讨会

ECCV 2024 W-CODA 研讨会的官方介绍和提案。它核心聚焦于利用 多模态大模型(MLLMs)和生成式AI(AIGC) 来解决 自动驾驶极端场景(Corner Cases) 这一关键挑战。研讨会通过 论文征集、双轨挑战赛(场景理解与生成) 和 特邀专家报告 三大核心活动,旨在推动相关领域的研究进展,弥合前沿技术与构建可靠自动驾驶系统之间的差距,并搭建学术界与工业界交流的平台。

  • 论文标题:ECCV 2024 W-CODA: 1st Workshop on Multimodal Perception and Comprehension of Corner Cases in Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2507.01735

双轨制W-CODA挑战赛的进展曲线:

突破传统车道中心线模型:LANet——融合车道边界感知的鲁棒轨迹预测方法

韩国电子通信研究院 (ETRI)等ICACI 2025中稿工作,本文提出了一种融合车道边界等地图元素的轨迹预测模型 LANet 及高效剪枝机制 CAIP,在 Argoverse 2 数据集上将最小终点位移误差 (minFDE) 降低至 1.62 米。

  • 论文标题:LANet: A Lane Boundaries-Aware Approach For Robust Trajectory Prediction

  • 论文链接:https://arxiv.org/abs/2507.01308

主要贡献:

  1. 引入多种矢量地图元素(如车道边界、道路边缘等),开发有效的特征融合策略,实现对驾驶环境更丰富、完整的表征,助力模型更全面捕捉影响智能体运动的交通规则与道路约束。

  2. 提出上下文感知交互剪枝(CAIP)机制,通过学习重要性分数筛选与目标智能体最相关的地图连接,在保留关键空间和语义关系的同时降低计算开销,兼顾轨迹预测精度与效率。

  3. 在 Argoverse 2 运动预测数据集上的大量实验表明,该方法性能优于现有基于车道中心线的模型,验证了其在提升自主驾驶轨迹预测准确性和实用性上的优势。

算法框架:

实验结果:

可视化:

鲁棒多传感器高精地图构建的哪些关键因素?

三星中国研究院等机构IROS 25中稿工作,本文提出鲁棒多模态融合框架RoboMap,在13类传感器干扰下将HD地图构建的mAP提升9点(基于MapTR),抗干扰指标mRS提升最高14.3点(基于HIMap)。

  • 论文标题:What Really Matters for Robust Multi-Sensor HD Map Construction?

  • 论文链接:https://arxiv.org/abs/2507.01484

  • 项目主页:https://robomap-123.github.io/

主要贡献:

  1. 构建了包含 13 种多传感器损坏类型的数据集,实现了多模态高清地图构建方法的综合鲁棒性基准测试,系统分析了模型在复杂条件下的性能。

  2. 提出了增强框架,包括数据增强、新型多模态融合模块(跨模态交互 Transformer,CIT)和模态 dropout 训练策略,在不损失精度的前提下显著提升了模型鲁棒性。

  3. 所提方法在 NuScenes 数据集的干净验证集上达到了最先进性能,同时在多传感器损坏场景下表现出优异的鲁棒性,为实际自动驾驶场景中的高清地图构建提供了可靠方案。

算法框架:

实验结果:

可视化:

VLAD

基于视觉语言模型增强的自动驾驶分层规划框架——突破端到端系统黑盒瓶颈,实现决策可解释化

日本岐阜大学与电装公司(DENSO)等ITSC中稿工作,本文提出 VLAD 框架,通过微调视觉语言模型 (VLM) 生成高层导航指令和可解释的自然语言决策,并结合端到端系统 (VAD) 进行轨迹规划,显著提升了自动驾驶安全性,在 nuScenes 数据集上将碰撞率降低了 31.82%。

  • 论文标题:VLAD: A VLM-Augmented Autonomous Driving Framework with Hierarchical Planning and Interpretable Decision Process

  • 论文链接:https://arxiv.org/abs/2507.01284

主要贡献:

  1. 提出 VLAD(Vision Language Autonomous Driving)混合框架,将专门微调的视觉语言模型(VLM)与最先进的端到端自动驾驶系统 VAD 集成,实现分层规划与可解释决策过程。

  2. 具备实时生成自然语言解释的能力,为每个规划决策提供透明的场景分析依据,解决端到端架构的可解释性难题。

  3. 在 nuScenes 数据集上的评估显示,VLAD 在碰撞率等安全关键指标上显著优于现有基线,证明经领域知识增强的 VLM 能提升自动驾驶轨迹规划的安全性。

  4. 首次实现将微调 VLM 同时用于分层规划监督与可解释决策过程,为可解释自动驾驶系统建立新范式。

算法框架:

实验结果:

可视化:

RTMap

基于先验地图的实时递归建图与变化检测定位系统

菜鸟无人车实验室(阿里巴巴集团)与北京师范大学合作,提出首个端到端实时众包高精地图框架RTMap,实现厘米级定位精度(横向误差0.121m,航向角误差0.368°)与57.4%的地图变化检测准确率,同步提升地图新鲜度与多任务性能。

  • 论文标题:RTMap: Real-Time Recursive Mapping with Change Detection and Localization

  • 论文链接:https://arxiv.org/abs/2507.00980

  • 代码:https://github.com/CN-ADLab/RTMap

主要贡献:

  1. 提出首个端到端框架,支持多遍历在线高清地图构建,同时解决基于地图的定位、地图变化检测问题,为下游自动驾驶模块提供稳定可靠的高清地图服务。

  2. 通过定量推断感知到的矢量化高清地图元素的概率密度,结合端到端学习与显式状态估计,进一步提高定位精度。

  3. 提出众包机制,异步递归更新离线先验地图,利用推断的概率密度和变化信息提升先验辅助的在线高清地图精度。

算法框架:

实验结果:

可视化:

最后欢迎大家加入知识星球,硬核资料在星球置顶:加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图,独家业内招聘信息分享~

我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们(目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求职分享。具身智能这么火,要不要考虑转行?自动驾驶技术的未来发展趋势如何?大模型如何预自动驾驶&具身智能结合?这些都是我们持续关注的

加入后如果不满意,三天内(72h)可全额退款!

### OCC算法在自动驾驶中的应用与实现 #### 一、OCC算法概述 OCCOccupancy Prediction)算法的核心在于通过传感器数据预测环境中物体的空间分布情况。这种预测不仅限于可见区域,还包括不可见区域的潜在占用状态。CTF-Occ网络作为一种专门针对3D占用预测设计的模型,在保持高效性能的同时,能够准确预测复杂环境中的空间布局[^3]。 #### 二、OCC算法的实现原理 OCC算法通常结合深度学习框架完成,主要分为以下几个部分: 1. **输入数据处理** 输入数据来源于多种传感器,如激光雷达(LiDAR)、摄像头等。这些传感器捕获的数据经过预处理形成统一格式的点云或图像数据。例如,DriveWorld项目利用大规模预训练模型来提升检测、地图构建、跟踪和运动预测等多个任务的表现[^4]。 2. **特征提取** 特征提取阶段采用卷积神经网络(CNN)或其他先进的深度学习架构。对于3D占用预测,常用的有PointNet++、VoxelNet等方法。这些方法可以有效捕捉局部几何结构并生成全局描述符。 3. **占用概率估计** 使用回归或分类的方式计算每个体素被占据的概率。这一过程可能涉及到多尺度融合策略以增强细节保留能力。例如,HOG特征检测器曾用于早期目标检测领域,虽然其适用范围较窄,但在某些特定条件下仍具有参考价值[^2]。 4. **后处理优化** 预测结果需进一步平滑化并通过阈值设定最终确定哪些位置被认为是“已占”。此外还可以引入时间维度上的连续性约束改善稳定性。 #### 三、代码示例 以下是基于PyTorch的一个简单OCC算法实现片段,展示了如何定义一个基础的3D占用预测网络: ```python import torch import torch.nn as nn import torch.optim as optim class SimpleOCCNet(nn.Module): def __init__(self, input_channels=1, output_classes=2): super(SimpleOCCNet, self).__init__() # 定义简单的卷积层序列 self.conv_layers = nn.Sequential( nn.Conv3d(input_channels, 16, kernel_size=3, padding=1), nn.ReLU(), nn.MaxPool3d(kernel_size=2), nn.Conv3d(16, 32, kernel_size=3, padding=1), nn.ReLU(), nn.MaxPool3d(kernel_size=2) ) # 输出层 self.fc_layer = nn.Linear(32 * 8 * 8 * 8, output_classes) def forward(self, x): batch_size = x.size(0) features = self.conv_layers(x) flattened = features.view(batch_size, -1) out = self.fc_layer(flattened) return out # 初始化模型及相关组件 model = SimpleOCCNet() criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=0.001) # 训练循环伪代码 for epoch in range(num_epochs): for data in dataloader: inputs, labels = data optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() print("Training completed.") ``` 此代码仅为示意用途,实际部署时应考虑更复杂的网络结构及更多的超参数调整选项。 #### 四、总结 综上所述,OCC算法通过对周围环境语义信息的有效感知支持了自动驾驶系统的决策制定过程。无论是理论层面还是实践操作均体现了高度的技术集成度和技术难度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值