点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
论文作者 | Ziyi Song等
编辑 | 自动驾驶之心
一、引言
传统的自动驾驶流水线具有模块化结构,面临着误差传递和泛化能力有限的问题。尽管端到端自动驾驶通过将原始传感器数据直接映射到最终控制指令提供了一种解决方案,但这种单体智能系统受限于传感器范围,并且在应对罕见极端事件和预测其他参与者意图方面显得力不从心。因此,车联网(V2X)通信作为一种关键的赋能技术,通过促进实时信息交换,有助于克服这些局限性。
本文介绍的 UniMM-V2X 框架,首次在多智能体端到端系统中实现了感知与预测的多级协同。它不仅打破了感知融合的局限,更引入了 MoE(混合专家模型) 架构,为感知、预测和规划动态定制专属特征表征。通过多级融合与 MoE 的深度协同,UniMM-V2X 在感知、预测和规划任务上均达到 SOTA 性能,为实现更安全、更具可解释性的协同自动驾驶提供了全新方案。
核心特点与主要贡献:
首次在多智能体端到端自动驾驶中探索多级协同,实现了跨越感知与预测层面的协作,从而显著提升了复杂场景下决策的可靠性。
在编码器和解码器中均引入了混合专家模型(MoE),增强了模型的灵活性和专业化程度,使其能够适应自动驾驶中多样化的任务和预测需求。
通过大量实验,验证了多级融合与 MoE 架构的结合产生了强大的互补效应,感知准确度提升了39.7%,预测误差降低了7.2%,规划性能提升了33.2%,充分展示了MoE 增强的多级协同范式的实力,促进了更可靠的协作,大幅提升了决策质量。
论文标题:UniMM-V2X: MoE-Enhanced Multi-Level Fusion for End-to-End Cooperative Autonomous Driving
论文链接:https://www.arxiv.org/abs/2511.09013
二、UniMM-V2X:MoE增强的感知预测多层级融合协同驾驶框架
★该系统通过整合来自多个智能体的感知层面和预测层面信息增强下游规划。BEV 编码器和motion解码器均配备了 MoE 架构,其中编码器生成为各种下游任务量身定制的任务自适应 BEV 特征,解码器采用不同专家来建模多样的运动模式,从而增强了多级融合的有效性和适应性,以实现更稳健的规划性能。
UniMM-V2X由三个主要部分组成:图像编码器、协同感知模块,以及协同预测与规划模块。图像编码器结合了 MoE 架构以提取任务自适应的 BEV 特征。感知模块负责执行协同检测、跟踪、建图以及占用图的生成。预测与规划模块通过基于 MoE 的解码器生成运动预测,并融合多智能体预测信息以做出规划决策。感知层面与预测层面的融合共同构成了一个统一的多级融合框架,使智能体能够在整个决策过程中实现有效的协作,显著提升了端到端系统在复杂多车环境下的可靠性。
用于自适应特征与运动建模的MoE
为了有效应对感知、预测和规划的复杂共同需求,作者团队在 BEV 编码器和运动解码器中均部署了 MoE 架构。通过采用标准的稀疏 MoE 设计并设计负载均衡损失,实现了BEV特征表征和运动查询向量的自适应和专业化生成。
★编码器为多样的下游任务(检测、跟踪、建图、运动预测)丰富了 BEV 特征提取过程;而解码器则通过针对特定运动的专家分支(如直行、左转、右转)生成运动查询向量,从而提升规划质量。
感知与预测多层级融合
在感知融合模块中,作者团队采用注意力机制来建模复杂的智能体间查询关系,并根据学习到的相关性分数进行加权特征融合,从而克服了以往研究中依赖固定距离阈值的硬匹配(hard matching)方法的局限性。
其中 分别为感知的查询向量和参考点信息。作者团队使用 MLP 将每个智能体的空间坐标嵌入到可学习的表征中,通过拼接后共同输入到多头自注意力机制中。这种设计使模型能够捕捉智能体之间的语义依赖关系,同时融合它们的相对空间位置,从而实现具备上下文感知和空间敏感性的特征融合,增强了协作理解能力。
在预测融合模块中,作者团队首先使用旋转矩阵 将源自 的智能体级锚点 转换到主车的坐标系中,随后通过 MLP 进行位置嵌入。本车智能体的运动查询向量与来自其他智能体经过位置增强的查询向量随后被拼接,并利用基于注意力的机制进行处理:
多头自注意力机制捕捉合并后的运动查询内部的智能体间依赖关系,多头交叉注意力机制则通过关注已融合的感知查询 来整合感知上下文,从而增强历史信息利用能力,为复杂多智能体场景下的运动推理提供了强有力的先验信息。
★(a) 感知级融合通过参考点嵌入引入空间位置先验,并利用基于注意力机制的多智能体动态融合。(b) 预测级融合采用基于锚点的嵌入和动态融合,以支持复杂多智能体环境下的运动推理。
三、实验结果
作者团队在DAIR-V2X数据集上对模型性能进行测试,并与UniAD, VAD, SparseDrive等单智能体端到端自动驾驶模型、Where2comm, CoBEVT等协同感知模型、以及V2VNet, CooperNaut, UniV2X等端到端协同自动驾驶模型进行比较。
规划:UniMM-V2X 实现了最低的平均 误差(1.49m),优于包括单智能体和现有协同方法在内的所有基准模型。更重要的是,UniMM-V2X 展现了卓越的安全性,3s平均碰撞率仅为 0.12%。
感知:与最先进的单车驾驶方案SparseDrive相比,作者团队在 mAP 上提升了 0.098,在 AMOTA 上提升了 0.297,证明了协作的有效性。与最先进的端到端协同驾驶框架相比,作者团队在不增加感知层额外通信成本的前提下,mAP 提升了 39.7%,AMOTA 提升了 77.2%。
预测:UniMM-V2X 取得了最佳性能,minADE 为 0.64m,minFDE 为 0.69m,这些改进为上述最终规划性能的提升做出了重大贡献。
多层级融合与MoE的作用:感知级融合提升了检测和跟踪性能,但对运动预测和规划的影响有限,这可能是由于感知准确度与规划需求之间存在失配。相比之下,预测级融合通过为遮挡对象提供补充运动线索并修正不确定的轨迹,增强了规划安全性,但由于缺乏早期阶段的协作,其感知性能仍与单智能体基准模型相似。这些结果表明,单层融合不足以优化所有的驾驶任务,多级融合确保了高质量的中间特征在整个框架中传播,从而实现了所有模块的性能提升。在 BEV 编码器中集成 MoE 增强了环境理解能力,提升了单车的感知和规划性能。仅在运动解码器中使用 MoE 带来的收益有限,这可能是由于缺乏足够任务特化的 BEV 特征来支撑准确的运动预测。当 MoE 同时应用于编码器和解码器时,可以取得最佳结果,此时编码器产生任务感知的 BEV 特征,而解码器则利用专家的专业化能力来捕捉复杂的运动行为。
系统实用性与可靠性:作者团队通过对比通信成本 (BPS) 和推理延迟(FPS)来评估方法的实用性与效率。与消耗大量带宽的 BEV 特征传输方法不同,作者团队在不牺牲规划质量的前提下,将通信成本大幅降低了 87.9 倍。在运行效率方面,UniMM-V2X 达到了 5.4 FPS 的帧率。由于集成了 MoE 架构和多级融合机制,其速度有轻微下降,然而这些微小的成本在规划安全性和可靠性的显著提升面前是完全可以接受的,反映出极佳的成本效益比。
在不同带宽条件下,UniMM-V2X 均表现良好,能够有效利用可用通信带宽进行协同规划,确保了在真实世界自动驾驶场景下的可靠性和可扩展性。
四、结论
UniMM-V2X通过在感知和预测层面进行信息融合,并在 BEV 编码器和运动解码器中集成 MoE模块,实现了更安全、自适应性更高的协同自动驾驶方案。在 DAIR-V2X 基准测试上的广泛评估表明,UniMM-V2X 达到了最佳性能,其检测性能提升了 39.7%,跟踪性能提升了 77.2%,运动预测误差降低了 7.2%,L2 规划误差降低了 33.2%,碰撞率降低了 52.0%。该框架在不同带宽约束下展现出了可靠性,突显了其在现实世界协同驾驶中的实际部署潜力。尽管在通信效率与闭环验证上仍有探索空间,但 UniMM-V2X 无疑为多智能体协同驾驶的未来提供了一条清晰的技术路线。在算力与网络不断进化的今天,这种分级协作、动态适配的端到端框架,或许能够推进全场景自动驾驶未来的实现。
自动驾驶之心
论文辅导来啦

自驾交流群来啦!
自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com
468

被折叠的 条评论
为什么被折叠?



