英伟达最新 | OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

最新推荐文章于 2025-12-01 09:39:31 发布

转载最新推荐文章于 2025-12-01 09:39:31 发布 · 299 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247603985&idx=4&sn=b558dbe3b9de1ccc2396126ce64703ac&chksm=cf65290b2614dd61f4575e65612f964d57d1bad9c521b9ef8ca96ee5bfea6cd9c5d275f8bf16&scene=126&sessionid=0

文章标签：

#3d

编辑 | 自动驾驶Daily

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心技术交流群

本文只做学术分享，如有侵权，联系删文

从一个新颖的3D MLLM架构开始，该架构使用稀疏查询将视觉表示提升和压缩到3D，然后将其输入LLM。

题目：OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning

作者单位：北京理工大学，NVIDIA，华中科技大学

开源地址：GitHub - NVlabs/OmniDrive

多模态大语言模型（MLLMs）的进展导致了对基于LLM的自动驾驶的兴趣不断增长，以利用它们强大的推理能力。然而，利用MLLMs强大的推理能力来改进规划行为是具有挑战性的，因为它需要超越2D推理的完整3D情境意识。为了解决这一挑战，本工作提出了OmniDrive，这是一个关于智能体模型与3D驾驶任务之间强大对齐的全面框架。框架从一个新颖的3D MLLM架构开始，该架构使用稀疏查询将视觉表示提升和压缩到3D，然后将其输入LLM。这种基于查询的表示允许我们联合编码动态对象和静态地图元素（例如，交通车道），为3D中的感知-行动对齐提供了一个简洁的世界模型。进一步提出了一个新的基准，其中包括全面的视觉问答（VQA）任务，包括场景描述、交通规则、3D基础、反事实推理、决策制定和规划。广泛的研究表明，OmniDrive在复杂的3D场景中具有出色的推理和规划能力。

网络结构

实验结果

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频