VLA空间理解的能力还远未被挖掘！OccVLA的新尝试（上海期智&清华&上交等）

最新推荐文章于 2025-09-28 07:31:32 发布

原创最新推荐文章于 2025-09-28 07:31:32 发布 · 719 阅读

13 ·

CC 4.0 BY-SA版权

❝
自动驾驶VLA的空间理解能力，亟需新的突破。

多模态大语言模型（MLLMs）已展现出强大的视觉-语言推理能力，但仍缺乏鲁棒的3D空间理解能力，而这种能力对自动驾驶至关重要。这一局限源于两个关键挑战：

（1）在无需昂贵人工标注的情况下，构建可用且有效的3D表示存在难度；
（2）由于缺乏大规模3D视觉-语言预训练，视觉-语言模型（VLMs）中的细粒度空间细节有所丢失。

为解决这些挑战，上海期智研究院、西交、复旦、上交和清华的团队提出了OccVLA——一种新颖的框架，可将3D占用率表示整合到统一的多模态推理过程中。与依赖显式3D输入的现有方法不同，OccVLA将密集3D占用率同时视为预测输出和监督信号，使模型能够直接从二维（2D）视觉输入中学习细粒度空间结构。占用率预测被视为隐式推理过程，在推理阶段可直接跳过且不会导致性能下降，因此不会增加额外的计算开销。在nuScenes基准的轨迹规划任务中，OccVLA取得了SOTA结果；在3D视觉问答任务中，该模型也展现出优越性能，为自动驾驶提供了一种可扩展、可解释且完全基于视觉的解决方案。

论文标题：OccVLA: Vision-Language-Action Model with Implicit 3D Occupancy Supervision
论文链接：https://arxiv.org/abs/2509.05578

一、简介

近年来，在实际部署需求的推动下，端到端自动驾驶技术取得了显著进展。如今，先进的自动驾驶系统通常会整合视觉-语言模型（VLMs），以便在复杂驾驶场景中提供出色的推理能力。然而，2D感知与3D感知之间始终存在差距，这仍是VLMs难以广泛应用的主要限制因素。在自动驾驶领域，稳健的3D感知对定位和导航至关重要，因为其保真度直接影响下游决策的安全性。

现有研究已针对这一挑战开展了大量探索（如图1（a）所示）。在基于VLM的感知流水线中，监督依赖于文本描述的3D标注（例如坐标或边界框），这类标注本质上具有稀疏性且信息量有限。生成此类标注需要大量人工标注工作，从而限制了模型的可扩展性。如图1（b）所示，近年有部分方法尝试整合3D输入，但它们受限于两个问题：一是缺乏大规模3D视觉-语言预训练数据，二是缺乏针对复杂空间场景的详细描述文本。这类3D VLMs通常将重点放在文本输出的监督上，却忽略了丰富的3D视觉模态信息，因此在自动驾驶的空间理解能力方面仍有提升空间。

在这一背景下，核心挑战主要体现在两方面：（1）如何建立可用且有效的3D信息表示；（2）如何开发密集3D监督机制以保留细粒度空间细节。近年，自动标注流水线技术取得了进展，使得大规模获取自动驾驶场景的3D占用率表示成为可能。这种3D占用率表示可自然地对详细的3D结构几何信息和语义标签进行编码，为空间信息与语义信息的对齐提供了统一格式。同时，随着占用率预测技术的发展，基于Transformer的模型已证明其在对这种3D占用率表示进行建模方面的可行性。受这些技术进展的启发，我们提出了一种增强占用率预测能力的VLM，旨在同时解决3D表示与3D监督两大挑战。

基于上述思路，我们提出了一种新颖的框架——占用率视觉-语言-动作模型（Occupancy Vision-Language-Action model，简称OccVLA），该框架可同时执行占用率预测、视觉-语言推理和动作生成任务。如图2所示，OccVLA将占用率令牌（occupancy tokens）视为隐式推理过程，通过交叉注意力从VLM的中间层接收视觉特征。为解决占用率表示的空间稀疏性问题，我们首先在紧凑的潜在空间（latent space）中预测占用率，随后通过一个占用率头（occ head）将得到的占用率令牌映射回高分辨率的原始占用率空间。这一3D场景预测步骤能帮助VLM更有效地捕捉细粒度空间细节。此外，与原始视觉特征相比，基于占用率表示的监督机制可显著增强VLM视觉特征的3D表示能力。值得注意的是，在推理阶段，占用率预测过程可完全停用，不会引入额外的计算开销。最后，一个轻量级的多层感知机（MLP）会接收VLM预测的元动作（meta-actions），并据此预测未来轨迹，为轨迹预测任务提供了一种简单且高效的解决方案。

OccVLA在多个感知与规划任务中均展现出优越性能。我们在nuScenes数据集上，通过车辆相对位置定位等多种视觉问答（VQA）任务验证了其3D理解能力。OccVLA的视觉输入仅为2D图像，这一设计能有效保留VLM在开放域对话中的固有泛化能力。此外，OccVLA支持对占用率表示进行灵活解码，生成可解释且可定量评估的输出——这一特性对纯视觉自动驾驶解决方案而言尤为重要。

本文的主要贡献如下：

提出了自动驾驶框架OccVLA，该框架通过占用率预测过程扩展了VLM的3D推理能力，同时有效保留了2D图像中的视觉信息。
设计了跨模态注意力机制，使模型在推理阶段可跳过占用率预测过程，不会增加额外的计算复杂度。
OccVLA在端到端轨迹规划和3D视觉问答任务中均表现出色，在公开基准数据集nuScenes上取得了当前最佳结果。

更多关于自动驾驶空间理解/VLM/VLA的技术资料、行业信息及招聘岗位，欢迎加入『自动驾驶之心知识星球』获取！

二、相关工作回顾

自动驾驶中的多模态大语言模型

近年来的研究认为，多模态大语言模型（MLLMs）能够模拟人类驾驶时的思维过程。借助视觉语言模型（VLMs）出色的零样本泛化能力，这些模型可有效处理自动驾驶中的长尾场景。然而，受预训练范式的限制，VLMs难以有效理解物理世界的3D结构。

DriveVLM是首个提出将VLMs用于自动驾驶运动规划的模型，但该模型依赖高质量的标注数据集。EMMA则利用包含大量3D坐标的数据集来增强模型的3D接地能力，不过这种方法需要大量人工标注工作。与之类似，OmniDrive会将3D点云压缩为稀疏查询并输入大语言模型（LLMs），但该方法不仅需要额外的3D传感器，还要求模型处理大规模的3D输入数据。

在本研究中，我们提出了OccVLA模型，该模型利用自动标注的占用率数据，为多模态大语言模型提供密集的3D监督信息。

用于3D感知的占用表示

3D占用表示通过为空间网格分配语义标签，旨在构建细粒度的3D场景表示。基于Transformer的方法通过时空特征融合，在占用率预测任务中展现出显著优势。

近年来，与传统视觉语言模型不同，已有多项研究探索将占用表示作为大语言模型的输入，以增强多模态大语言模型在自动驾驶场景下的理解能力。例如，OccWorld提出对多尺度占用特征进行预测，从而学习世界模型；OccLLAMA则引入大语言模型来预测未来的3D占用表示和动作；同样，Occ-LLM提出了一种运动分离变分自动编码器，可将占用网格中的动态目标与静态目标分离，并利用LLMs分别对其进行预测。

尽管可以像VLMs那样对3D视觉输入和语言进行联合训练，但文本描述仍存在遗漏关键3D信息的风险。为解决这些局限性，OccVLA专注于将占用表示同时作为模型的输出和监督信号，进而构建一种全新的多模态学习框架。

三、OccVLA算法详解

概述

OccVLA——一个用于3D占用率预测和未来自车运动规划的统一框架。OccVLA的核心组件包括占用率预测模块和独立的规划头模块。此外，我们还引入了三阶段训练流程，以更好地平衡模型在不同任务上的性能。

如图2所示，我们将3D视觉监督融入典型的视觉语言模型框架中。在进行下一个token预测之前，模型会先感知视觉输入并生成占用率预测结果。这种统一架构能够在感知阶段实现视觉信息与文本信息的无缝融合（即“先感知，再推理”），从而为视觉理解奠定坚实的感知基础，减少仅依赖文本监督所导致的信息损失，最终提升模型的3D理解能力。

占用率预测

占用率Transformer

为增强自动驾驶系统的3D感知能力，我们在原始视觉语言模型框架的基础上，扩展了专门的3D占用率预测处理流程。OccVLA以一组可学习的占用率查询作为输入，这些查询会经过与VLMs相同的前馈层、查询-键-值（QKV）投影层和归一化层。模型通过共享的视觉键-值（KV）表示实现跨模态交互，使得占用率token能够查询视觉特征。

如图2（a）所示，右侧的占用率token可通过交叉注意力机制获取左侧视觉语言模型的视觉特征。实验表明，在文本推理过程中，模型收敛后，文本token是否能访问占用率特征，并不会对文本生成质量产生显著影响。这意味着仅通过视觉特征就能实现文本预测，因此在语言推理阶段，无需进行额外的占用率计算，从而提高了推理效率。

最后，我们在残差连接处插入轻量级适配器，用于微调VLMs，同时保留模型原有的视觉-语言建模能力。

潜在空间占用率预测

在自动驾驶场景中，约90%的3D空间是空的，这导致占用率信号高度稀疏。此外，原始占用率网格对内存要求较高，其通常表示为（其中），直接对其进行预测效率较低。

我们借鉴相关研究方法，将目标占用率映射到紧凑的潜在空间（其中为下采样率，为潜在特征维度）。如图2所示，左侧占用率模型输出隐藏状态，该状态通过线性投影器投影为，随后将这些特征输入VQ-VAE解码器（解码器权重采用预训练权重初始化）。最终，分类头会将解码后的特征转换为3D占用率预测结果。

运动规划

任务分解

大语言模型和视觉语言模型擅长基于语义线索进行推理，但对精确数值的敏感性较低。若直接从原始轨迹预测未来车辆坐标，会无法充分发挥其优势。因此，我们借鉴相关研究，将运动规划分解为两个阶段：（1）预测自然语言形式的高层元动作；（2）基于预测的元动作，利用轻量级模型生成精确的未来坐标。

元动作预测

我们将元动作定义为车辆短期驾驶意图的紧凑可解释表示，它包含两个正交组件：（1）速度动作，分为“保持速度”“加速”“减速”三类；（2）方向动作，分为“直行”“左转”“右转”“左变道”“右变道”“停车”六类。这种设计使模型能够在离散、适合语言处理的空间中进行推理，同时保留关键的运动语义信息。

为充分利用大语言模型的推理能力，我们构建了思维链（CoT）监督机制，用于元动作预测。视觉语言模型的输入包括从环视拍摄的6张图像，以及自车过去的元动作。模型首先生成场景的自然语言描述，然后基于历史元动作推断驾驶员的意图，最终输出预测的未来元动作。这种多步骤推理过程能促使模型将场景理解与运动意图预测明确关联起来。

我们开发了一套全自动数据构建流程，用于生成元动作标签及相应的思维链标注：

速度组件标签：通过对加速度进行阈值分类直接获取；
方向组件标签：将未来轨迹投影到车道级高清地图上，通过模型将其分类为5个方向类别；
思维链（CoT）标注：基于图像输入，通过模型生成场景描述，再结合真实元动作完成推理步骤，最终得到标注结果。

为确保标注质量，我们对nuScenes数据集上生成的所有元动作进行了人工检查，并对约20%的数据进一步优化，以提高标注一致性。由于鸟瞰图（BEV）视角可同时查看场景中所有轨迹坐标，因此所需的人工标注工作量极少。图3展示了我们的元动作及训练数据构建流程。

规划head

规划头的作用是将预测的元动作转换为具体的未来坐标。我们采用基于多层感知机（MLP）的简单架构，输入包括元动作嵌入、前一时间步的速度以及视觉语言模型（VLMs）的视觉token，输出为未来3秒内车辆的位置。值得注意的是，该过程无需提供高层导航指令，确保所有规划决策均仅源于模型对场景本身的理解。

训练阶段

自动驾驶场景预训练

如图4所示，我们采用视觉语言模型微调策略及其对应的损失函数，使用从OmniDrive采样的数据集进行训练。该阶段的目标是帮助模型从通用领域迁移到自动驾驶场景，例如让模型学会关注特定类型的目标（如汽车、行人、道路等）或预测未来运动状态。此外，该训练过程还能使模型具备长文本推理和对话能力，从而更有效地处理复杂的语言理解任务。

占用率-语言联合训练

本阶段通过在训练过程中对齐占用率-视觉模态，提升视觉语言模型的3D理解能力。我们使用完整的“占用率-图像-语言”数据集对模型进行监督训练：其中，“占用率-视觉”模态负责从视觉特征中提取3D信息表示，“语言”模态则确保3D场景描述的一致性。

为充分利用模型的深层特征，我们采用适配器对Transformer块进行微调。同时，我们将大语言模型的标准自回归语言建模损失与非自回归3D感知损失相结合，后者通过计算预测占用率对数与真实占用率标签的交叉熵得到。

实验发现，由于VQ-VAE编码会引入固有偏差，直接对齐潜在空间特征的效果并不理想。因此，我们选择直接对最终的3D占用率类别进行监督。为进一步提升训练稳定性，我们对不同模块采用了不同的学习率：VQ-VAE解码器的学习率设为0（而非完全冻结），以保持梯度流动；其他所有组件则使用相同的学习率。总损失函数定义为自回归文本损失与λ倍非自回归占用率损失之和（其中λ为控制占用率任务关注程度的因子）。

规划head训练

在轨迹规划任务中，规划头的输入包括视觉语言模型预测的元动作、当前速度、VLMs输出的视觉token以及自车轨迹，输出为未来轨迹的坐标。具体而言，我们将训练完成的VLMs所预测的元动作输入规划头，并通过计算规划头输出与真实轨迹坐标的均方误差（MSE）损失，对规划头进行监督训练。

四、实验结果分析

实验设置

数据集：NuScenes是自动驾驶领域广泛使用的数据集，包含700个训练场景和150个验证场景。基于NuScenes中的传感器信息（如图像、雷达），研究人员构建了Occ3D这一大规模3D占据表示数据集。此外，近年来随着大自动驾驶模型的发展，许多视觉问答（VQA）数据集也在NuScenes的基础上构建而成。本研究通过NuScenes-QA数据集，专门评估模型在3D定位、目标查询和关系比较任务中的能力。同时，我们收集了一个大规模的“图像-占据-文本”数据集，用于实现多模态对齐，并训练模型预测未来元动作。这种多模态对齐与未来预测任务，旨在提升模型对3D场景的理解能力，以及在动态自动驾驶场景中的推理和动作执行能力。

实现细节：在所有实验中，我们采用Paligemma2-3B-224px作为视觉语言模型的骨干网络，同时参照OccWorld中的设置初始化场景VQ-VAE。所有模型均使用AdamW优化器进行训练，并在8块NVIDIA A800 GPU上开展实验。

结果与分析

运动规划

如表1所示，我们将OccVLA的运动规划能力与多个性能强劲的基线模型进行对比，这些基线模型采用了不同的输入数据和监督方式。当前的最优方法EMMA依赖于监督标注（3D/BEV坐标及3D边界框），这限制了其在大规模数据集上的扩展性；而OmniDrive则依赖相机与激光雷达的联合输入。与之不同，OccVLA仅需相机输入，并以可大规模标注的占据信息作为监督。在平均L2距离指标上，我们的方法达到当前最优水平，同时在3秒内的轨迹规划任务中也取得了极具竞争力的结果。

在表2中，诸如Occ-LLM等将占据信息作为大语言模型（LLM）输入的方法，因编码了强大的3D先验知识，在多个指标上均表现优异。这些方法以相机为输入，先通过占据预测网络获取占据信息，再将其输入至LLM。我们的方法则直接以相机为输入，并将占据预测过程集成到LLM中，最终实现当前最优结果。值得关注的是，OccVLA仅使用相机输入，却能与采用真值占据信息作为输入的方法达到相当的性能水平，这进一步凸显了将占据信息作为LLM输出的优势。此外，我们的模型仅为3B参数规模，却比7B参数的OccLLaMA表现更优，体现出更强的实际应用潜力。

视觉问答

为进一步评估模型的3D理解能力，我们在具有挑战性的NuScenes-QA基准数据集上对其进行测试。NuScenes-QA数据集专为自动驾驶场景设计，包含46万个问答对，问题涵盖存在性、计数、目标与状态查询、比较等多种类型，旨在测试模型在复杂街景中的推理能力。

表3展示了在NuScenes-QA上的整体准确率。通过融入占据监督，我们的模型仅使用图像输入且参数规模为3B，却成功超越了那些依赖激光雷达3D输入或显式真值占据数据的更大规模模型。这一结果表明，在自动驾驶场景中，我们的方法能从纯视觉输入中更深入、更高效地学习3D理解能力。

占据预测

该任务旨在利用相机捕获的多视角图像预测实时3D占据信息。尽管我们采用的是并非专为占据预测设计的LLM架构，但模型仍表现出极具竞争力的性能，超越了基线方法。具体而言，该模型仅处理当前时刻的输入，未利用过去状态的特征，直接输出当前时刻的3D占据信息，在mIoU指标上达到约10%。如图5所示，由于缺乏多时间戳图像输入，模型在处理遮挡区域（如树木后方的建筑物）时的能力受到限制，这一结果符合预期。尽管如此，模型在预测自动驾驶场景中的关键元素（如车道、车辆、行人以及车辆附近目标的细节信息）方面表现出色。

因此，该模型在自动驾驶场景下展现出强大的3D场景目标级理解能力。尽管缺乏时间信息，模型仍能有效利用当前时刻的多视角图像生成高质量的3D占据预测结果，这凸显了LLM架构在此类任务中的潜力——即便其最初并非为该任务设计。

消融实验

占据监督

我们对比了占据预测过程对运动规划和视觉问答（VQA）两项任务性能的影响。如表4所示，若不引入占据监督（标记为“✗”），模型将仅依赖对2D图像的理解来规划未来动作；而融入占据监督（标记为“✓”）后，模型可获得额外的3D信息，从而突破稀疏文本监督的局限，并通过3D占据预测过程提升自身的3D理解能力。这一性能提升源于占据监督增强了LLM所学习视觉特征中的3D先验知识，最终使元动作预测性能提升约1.5%。

自车轨迹

对于运动规划任务，以往研究指出，自车轨迹可能为模型引入过多先验知识，导致模型在数据集上过拟合。为确保对比的公平性，我们在表5中报告了不使用过去轨迹信息（标记为“✗”）时的规划性能。在相同条件下，我们的方法与当前最优方法（如VAD）相比，展现出具有竞争力的性能优势。值得注意的是，我们的模型不依赖高层导航指令，所有动作预测均完全基于模型对场景本身的理解，这凸显了OccVLA强大的性能和泛化能力，进一步证明其在不同场景中的有效性。

五、结论

本文提出了一种用于自动驾驶的新型占据-视觉-语言框架OccVLA。该框架在latent空间中采用并行大语言模型（LLM）架构，联合学习占据表示与视觉-语言表示。在利用预训练2D知识的同时，OccVLA实现了对3D空间语义更关键的细粒度理解。此外，我们的方法不依赖额外的3D输入信息，且在推理阶段可跳过占据预测过程，有效解决了以往基于3D视觉语言模型（VLM）的自动驾驶模型因参数规模庞大而导致的推理延迟问题。