MPDrive:通过基于标记的提示学习来提高自动驾驶的空间理解能力

作者 | xxx 编辑 |  xxx

 原文链接: 

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『BEV感知』技术交流群

本文只做学术分享,如有侵权,联系删文

  • 论文链接:https://arxiv.org/pdf/2504.00379

图片

摘要

图片

本文介绍了MPDrive:通过基于标记的提示学习来提高自动驾驶的空间理解能力。自动驾驶视觉问答(AD-VQA)旨在根据给定的驾驶场景图像回答与感知、预测和规划相关的问题,它严重依赖于模型的空间理解能力。先前的工作通常通过坐标的文本表示来表达空间信息,导致视觉坐标表示和文本描述之间存在语义差距。这种疏忽阻碍了空间信息的准确传输,增加了表达负担。为了解决这个问题,本文提出了一种新的基于标记的提示学习框架(MPDrive),它通过简洁的视觉标记来表示空间坐标,确保了语言表达的一致性,并且提高了AD-VQA中视觉感知和空间表达的准确性。具体而言,本文通过采用检测专家以使用数值标签来覆盖目标区域,从而构建了标记图像,它将复杂的文本坐标生成转换为简单的基于文本的视觉标记预测。此外,本文将原始图像和标记图像融合为场景级特征,并且将其与检测先验相结合,以获得实例级特征。通过结合这些特征,本文构建了双粒度视觉提示,以促进LLM的空间感知能力。在DriveLM和CODA-LM数据集上的大量实验表明,MPDrive实现了最先进的性能,特别是在需要复杂空间理解的情况下。

图片

主要贡献

图片

本文的贡献总结如下:

1)本文提出了MPDrive,这是一种基于标记的提示学习框架,它利用了视觉标记来弥补AD-VQA中基于坐标和语言描述之间的差距,显著提高了自动驾驶的空间理解能力;

2)MPDrive由两个组件构成:标记控制网络(MCNet)和感知增强的空间提示学习(PSPL)。MCNet融合了场景特征的视觉标记图像,同时PSPL集成了场景级和实例级视觉提示,以增强多级空间理解;

3)大量实验表明,MPDrive在AD-VQA任务上取得了最先进的结果,在DriveLM数据集的多图像任务和CODA-LM的单图像任务上表现出色,特别是在复杂的空间场景中。

图片

论文图片和表格

图片

图片

总结

图片

本文引入了一种新的基于MLLM的框架,称为MPDrive,它用于自动驾驶视觉问答。MPDrive将复杂的空间坐标生成转化为简洁的视觉标记预测。它结合了MCNet和PSPL来增强场景级和实例级空间感知能力。MPDrive在DriveLM数据集的多视图输入自动驾驶任务上以及在CODA-LM数据集的单视图输入任务上均实现了最先进的性能。

MPDrive依赖于先验专家进行空间感知和语言表达,来自专家的错误会影响其性能。此外,尽管MPDrive增强了AD-VQA的空间感知能力,但是长期时间感知仍然是自动驾驶中的一项重大挑战。因此,如何基于MPDrive来推进这项研究值得进一步探索。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值