Less is More!Max-V1:面向自动驾驶精巧而强大的视觉-语言模型(复旦&中科院)

Max-V1:基于VLM的高效自动驾驶模型

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

论文作者 | Sheng Yang等

编辑 | 自动驾驶之心

最近大模型领域开始重新思考对scaling laws的传统认知,前有上交团队针对Agent任务提出的『LIMI: Less is More for Agency』。即数据越多,AI能力未必越强越强。如今这一思考延伸到自动驾驶领域。自动驾驶VLA/VLM真的需要海量数据吗?或者说应该刨去冗余,提炼真正关键的信息。

自动驾驶之心今天要分享的工作是复旦和中科院的团队提出的 Max-V1 —— 全新的一阶段端到端自动驾驶框架。Max-V1将自动驾驶重新概念化为一种广义的语言任务,并将轨迹规划问题形式化为“下一个waypoint预测”(next waypoint prediction)。

该框架采用单次前向生成范式,且结合自动驾驶时序感知。该方法利用VLM的生成能力,仅输入前视相机并且端到端地预测轨迹。这一方法的有效性建立在一种源于统计建模的、原则性的监督策略之上,该策略提供了明确定义的学习目标,使得框架能够通过大规模专家示范的模仿学习,高效掌握复杂的驾驶策略。

在实验上,我们的方法在 nuScenes 数据集上取得了当前SOTA的性能,相较先前的基线模型整体提升超过 30%。此外该模型在来自不同车辆平台的跨域数据集上也展现出不错的泛化能力,显示出在跨车辆部署中具有显著的鲁棒性与适应性潜力。凭借这些实证优势,本工作提出了一种能够实现基础驾驶行为的模型,为构建更强大的自动驾驶智能体奠定了基础。

  • 论文名称:Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2510.00060

背景回顾与主要贡献

人类驾驶本质上是一个序列化决策过程,其中每一个动作都依赖于对周围场景的实时理解。这种感知与动作之间的动态交互,与自然语言生成具有高度相似性——后者同样涉及生成高度相关的输出序列。从这一视角出发,我们可以将视觉-语言模型(VLM)视为一个强大的策略网络(policy network)。在此情境下,模型的目标从“预测下一个词”转变为“生成下一个驾驶动作”,从而将planning转化为一个可处理的、自回归式的序列建模任务。基于此,利用VLM丰富的预训练知识与复杂推理能力提升自动驾驶的相关工作相继提出。

端到端方法已成为自动驾驶领域的主流范式,因其能够对整个系统进行全局优化,并避免多阶段处理中的误差累积。在此范式下,当前研究主要分为两大方向:其一是开发专用架构,仅在大规模、领域特定的驾驶数据集上进行训练;其二是适配大型预训练 VLM,旨在利用其广泛的世界知识与通用推理能力来服务于驾驶任务。

第一类方法(如UniAD)通常采用专门设计的专用序列架构,以BEV表示为核心。该方法假设:当模型在海量真实驾驶数据上训练时,即可学习到适用于实际部署的鲁棒策略。然而,这一范式面临以下挑战:一方面,其对高质量、精心标注数据集依赖较高,限制了其在长尾场景中的泛化能力;另一方面,BEV 表示本身具有脆弱性——从视觉图像生成 BEV 是一个病态问题(ill-posed problem),易导致信息损失,且大规模、精确标注的 BEV 数据集稀缺,构成了难以回避的瓶颈。

第二类方法则更灵活高效地利用了VLM框架作为高级推理引擎。通过问答(Q&A)格式,这些系统能深度挖掘并利用 VLM 中丰富的预训练知识,从而增强对驾驶场景的上下文理解。然而,其通用性也带来了任务对齐上的不适配:为离散文本处理优化的模型架构与目标函数,并不天然适用于现实世界轨迹规划所需的连续、细粒度控制

对当前端到端方法的分析揭示了两种并行的研究思路,各自存在固有局限:专用模型虽针对大规模领域数据优化,却受限于其数据驱动本质与脆弱的中间表示;而基于 VLM 的框架虽具备强大推理能力,却面临计算效率低下及对连续控制问题天然不适配的挑战。因此开发更高级的架构以弥合这些差距,成为一条极具前景的演进路径,也是本工作的主要动机。

在本研究中,我们提出了 Max-V1——一个基于纯 VLM 构建的端到端自动驾驶轨迹规划器。Max-V1通过对驾驶特定行为进行微调,使预训练 VLM 获得驾驶相关能力,从而聚焦于任务本身。为此,Max-V1 将驾驶建模为类似于自然语言的序列决策过程,并摒弃了传统的 BEV 特征空间,转而直接处理以自车为中心(ego-centric)、第一人称视角的原始传感器输入。通过这种纯 VLM 驱动的端到端架构,我们的范式兼具高性能与结构简洁性,并具备强大的跨域泛化潜力。该方法避免了 BEV 构建过程中的误差累积,充分利用了预训练知识,降低了对昂贵 BEV 特定标注的依赖,并更贴近驾驶的本质。

具体而言,本文的贡献如下:

  • 将驾驶行为统计建模为序列决策过程,并将规划任务形式化为“下一个waypoint预测”,并验证了所设计监督信号的有效性。该形式化为我们的单次前向设计奠定了原则性基础,并与驾驶的本质相一致。随后,我们利用预训练 VLM 作为领域知识库与强大策略网络,通过微调来解决该任务。

  • 在训练过程中不使用任何外部信息的情况下,我们的方法在 nuScenes 数据集上达到当前最优性能,相较先前的baseline整体提升超过 30%。尤其值得注意的是,我们的模型展现出强大的零样本泛化能力,在截然不同的场景中仍能表现出合格的驾驶行为。由于这些数据集由完全不同的车辆采集,该性能表明其在跨车辆部署方面具有强大潜力。此外,我们还初步探索了第一人称视角下的 LiDAR-图像融合,识别出一种更偏向短期目标的性能权衡。

  • Max-V1为 VLM 提供了一种面向任务的适配方案,可替代传统的多阶段驾驶流水线。这一统一架构结构简洁,为通过强化学习进一步开发更强大的自动驾驶智能体提供了可扩展的基础。

算法详解

模型简介

预备知识

GPT风格的大语言模型(LLMs)通过自回归机制在文本序列上进行操作。它们被训练为给定所有前置令牌的情况下预测序列中的下一个令牌,从而有效地学习语言的底层概率分布。这通常通过最小化交叉熵损失来实现,使模型能够捕捉复杂的语言模式。

当扩展到多模态情境时,这些被称为视觉-语言模型(VLMs)的模型,会基于文本提示   和视觉输入   的组合生成一系列输出令牌  。这个过程可以形式化地表示为:

其中   代表VLM。生成过程仍然是自回归的,模型的输出是一系列离散的语义令牌。

next waypoint预测

语言生成和自动驾驶之间存在强烈的相似性:两者都涉及产生高度相关的动作序列。从这个角度来看,我们可以将VLM视为一个策略网络,其中VLM的输出产生预测轨迹,类似于语言中的一句话。

因此,主要挑战是将单个样本的鸟瞰图(BEV)轨迹   表示为一系列waypoint   的序列,其中   和   表示   的坐标,并将其融入自回归框架中。一种简单直接的方法是将waypoint坐标直接编码为文本格式:

这里,文本化的waypoint被视为离散令牌  。因此,模型将使用标准的LLM交叉熵损失进行训练:

尽管这种分词策略在自然语言处理中非常有效,但它并不适合自动驾驶。核心问题源于数据域的不匹配,因为语言令牌是离散的语义单元,而waypoint坐标是具有直接物理意义的连续值。将后者视为离散词语会导致与交叉熵损失的不兼容,这种不兼容性会损害性能,因为专为分类而非连续空间数据设计的交叉熵损失无法反映几何上的邻近性。因此,它对微小的waypoint偏差和完全错误的位置施加了同等的惩罚,这违背了运动的连续性和空间度量。

相比之下,一种对空间敏感的损失函数可以直接解决这种不匹配问题。它不是将waypoint视为离散类别,而是量化预测轨迹与真实轨迹之间的几何差异。通过根据实际的空间偏差来调整惩罚,优化过程能更好地符合平滑、连续运动的物理要求,最终带来更优越的性能。

为了解决这个问题,我们将“下一词预测”重构为“下一waypoint预测”,并在自回归框架内将其视为一个回归问题。我们使用作为连续坐标值占位符的特殊令牌来对轨迹预测进行建模:

模型按顺序生成waypoint,以保持自回归结构,从而捕捉运动中的时间依赖性:

与大多数其交叉熵损失定义在离散令牌分布上的LLMs不同,我们将每个waypoint(对应于序列中的一个令牌)建模为二维连续空间   中的高斯分布,即

其中   是对所有   给定的常数,  是未知的,  在后续上下文中被省略,因为初始waypoint   始终被设置为  ,因此  。请注意,  是   的唯一样本,因此   的最大似然估计为

类似地,对于预测的waypoint  ,条件分布定义为

其最大似然估计为

然后,针对单个样本,在最大似然估计分布   和   之间定义的经验交叉熵损失为

忽略常数项后,这等价于  -损失

至关重要的是,我们没有依赖于这些特殊令牌的交叉熵损失,而是引入了一种针对waypoint回归的特定任务损失。与物理直觉一致,我们使用物理距离损失来监督预测坐标与真实值:

其中   表示样本   在时间戳   的waypoint。这种方法相比直接的文本输出有两个显著优势:

  • 它解决了交叉熵损失的离散性与空间数据的连续性之间的不匹配问题,同时允许对数值精度进行显式控制。

  • 通过使用紧凑的特殊令牌代替冗长的字符串表示(这固定了坐标的输出长度),显著减少了训练和推理过程中的令牌消耗和计算开销。

与现有工作的区别

基于VLM的模型(如EMMA)的出现标志着自动驾驶规划领域的一个里程碑。尽管我们的工作与利用VLM推理有相似的目标,但在几个关键的设计理念上存在分歧,这些理念比基础模型的具体选择更具根本性。这些区别旨在优化“下一waypoint预测”的直接性和效率,其主要差异如下:

  • 统计建模:我们的方法通过系统性地理解监督信号而脱颖而出。具体来说,通过对驾驶任务固有特性的彻底分析,我们推导出waypoint表示的统计学基础模型。这为提出的  -损失函数提供了原理性的基础。与基于交叉熵损失的方法相比,我们损失设计的优点得到了直观推理、理论分析和实证证据的支持。据我们所知,我们是第一个在基于VLM的驾驶研究中对损失函数本身进行详细理论建模的工作。

  • 单次生成:我们框架的核心设计原则是其深刻的简洁性,无需依赖额外的组件,例如额外的思维链(Chain-of-Thought)注释。这避免了收集详细推理数据的繁琐和高成本过程。我们的方法也摒弃了用于迭代优化的多轮对话。相反,我们的框架是一种单次、端到端的方法,直接生成整个轨迹。

  • 轻量级输入:许多现有方法依赖于丰富的输入模态,其中自车状态作为一个提供大量信息的关键组成部分,连同环视视频和其他形式的引导信息。相比之下,我们的方法设计为仅在前视摄像头的单帧图像上运行,无需任何额外的自车状态信息。显然,我们的设计不仅通过降低输入复杂性提高了训练和推理效率,而且更好地符合了人类前视驾驶的直觉。

实验结果

局限性和未来工作

在本节中,我们讨论当前方法的局限性,并概述未来研究的几个有前景的方向。

  • 数据规模与多样性:在nuPlan和 Waymo Open Dataset等更多开放环路的真实世界数据集上进行训练,可能会增强驾驶风格的多样性和模型的鲁棒性。然而,引入非专业驾驶员数据的价值仍有待商榷。

  • 推理效率:由于VLMs固有的局限性(这是所有基于VLM的方法都面临的共同问题),推理延迟仍然是实时部署的一大挑战。未来的方向包括探索高效的推理技术,例如知识蒸馏和量化,并通过开发定制芯片来追求硬件加速,以提升推理速度。

  • 缺乏可解释性:端到端的黑盒架构本质上缺乏直接的可解释性。尽管这种设计选择优先考虑了任务性能和效率,但我们承认可解释性在自动驾驶中的重要性。未来的工作可以专注于开发混合架构或事后(post-hoc)分析方法来弥合这一差距。

  • 超越模仿学习:当前的模型基于模仿学习,这无法摆脱专家演示的局限性。可以通过引入强化学习来增强微调过程,使模型能够从交互中学习并发现更优的驾驶策略。

结论

在本研究中,我们提出了一种名为 Max-V1 的新框架,该框架将通用的视觉-语言模型(VLM)应用于自动驾驶中的轨迹规划任务。我们的方法建立在一个协同框架之上,该框架集成了三个核心组件:(i) 一种直接的、自回归的waypoint预测策略;(ii) 一种特定于任务的微调策略;以及 (iii) 一种简洁的、以自我为中心的输入格式。该规划过程由一种统计上严谨、符合物理直觉的监督信号进行引导。该方法绕过了文本分词,使模型的预测直接与驾驶行为对齐,从而实现了稳健的端到端轨迹规划。

从定量上看,我们的模型在模仿性能上普遍优于之前的最先进基线:在所有评估的轨迹规划项目中,我们的位移误差指标整体降低了超过30%。这种强大的实证表现,得益于根植于统计建模的关键理论洞察,凸显了我们方法的实际可行性。作为一次初步探索,我们也对一种简单的激光雷达融合策略进行了试点研究,这揭示了一个明显的性能权衡,并为未来的改进提供了新的方向。

尽管自动驾驶领域的标准位移度量已知更偏向于模仿保真度而非真实的驾驶智能,但我们的模型所达到的性能水平验证了其在驾驶方面的核心能力,在视觉上,它甚至在某些场景下展现出比人类驾驶员更合理的驾驶行为。这一成就指向了未来工作的一个关键方向:通过强化学习来提升驾驶智能。总体而言,这项工作为追求自动驾驶智能体所需的效率和能力提供了一个坚实的基础。

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值