面向量产VLA方案!FastDriveVLA:即插即用剪枝模块,推理加速近4倍(北大&小鹏)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

今天自动驾驶之心为大家分享北京大学,小鹏汽车最新的工作!FastDriveVLA:对抗性视觉token剪枝,50%压缩率下性能保持97.3%!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群加入,也欢迎添加小助理微信AIDriver005

>>自动驾驶前沿信息获取自动驾驶之心知识星球

论文作者 | Jiajun Cao等

编辑 | 自动驾驶之心

写在前面 && 笔者理解

近年来,端到端自动驾驶研究进展神速,各家也都在如火如荼的宣传自家的端到端方案。与传统模块化方案(感知→预测→规划)不同,端到端方法在同一个模型中完成全部感知到规划的过程,有效减少了不同模块之间的信息损失,也从某种角度简化了系统架构。但是技术的进步不止于此,随着视觉-语言大模型(VLM)在视觉问答任务中展现出令人称奇的推理能力,很多研究人员及算法团队开始将其扩展至具身智能和自动驾驶领域,通过引入动作生成功能,形成了视觉-语言-动作(VLA)模型。相较传统模块化方案,VLA 模型在复杂场景理解与决策方面表现更优,已经被越来越多的端到端自动驾驶系统采用。

  • 论文链接:https://www.arxiv.org/pdf/2507.23318

不过,VLM/VLA 模型通常将输入图像编码为大量视觉,会带来高昂的计算开销与推理延迟,在车载芯片上实际部署时有着较高的时延压力。为缓解这一问题,现有研究主要从两个方向进行视觉 token 剪枝:

  1. 注意力机制导向方法
    依据文本 token 与视觉 token 之间的注意力权重进行筛选。但是因为驾驶任务中的文本指令往往固定且简短,提供的监督信息有限,导致剪枝效果不佳。

  2. 相似度导向方法
    通过度量视觉 token 间的冗余度进行去重。驾驶场景通常包含明确的前景区域(车道、车辆、行人等),此类方法易误删关键前景 token 而保留无关背景 token,难以满足任务需求。

针对上述的局限性 (参考图 1),作者提出 FastDriveVLA——一种面向自动驾驶场景的重建式视觉 token 剪枝框架。其核心思想来源于人类驾驶行为:驾驶员主要关注与决策直接相关的前景区域,背景区域几乎对驾驶决策没什么影响。因此,保留编码前景信息的 token 即可在保证性能的同时显著降低计算成本。

FastDriveVLA 包含一个即插即用的剪枝器 ReconPruner,通过 MAE 风格的像素重建任务进行训练,使模型能够聚焦于前景区域并为包含关键信息的 token 赋予更高显著性分数。为防止模型陷入“所有 token 都高分”的退化解,作者进一步引入对抗式前景-背景重建策略:在利用高分 token 重建前景的同时,强制低分 token 重建背景,从而增强模型对前景与背景的区分能力。

训练完成后,ReconPruner 可直接嵌入任何共享相同视觉编码器的 VLA 模型,无需重新训练。为支持 ReconPruner 的训练,作者构建了大规模数据集 nuScenes-FG,基于 nuScenes 并使用 GroundedSAM 进行前景分割标注,共计 24.1 万张图像-mask 对,涵盖六个车载摄像头视角。

总结来看,本文贡献如下:

  • 提出面向自动驾驶的重建式视觉 token 剪枝框架 FastDriveVLA;

  • 设计即插即用剪枝器 ReconPruner,并引入对抗式前景-背景重建策略;

  • 构建并发布 nuScenes-FG 数据集,提供细粒度前景分割标注;

  • 在 nuScenes 闭环规划基准上取得 SOTA 结果,验证方法有效性与实用性。

相关工作

端到端自动驾驶

传统自动驾驶系统遵循感知、预测、规划的分模块 pipeline。与之相比,端到端方法尝试在单一网络中直接学习从原始传感器输入到控制指令的映射。早期 PilotNet 用卷积网络证明了这一思路的可行性,但随后的行为克隆方法遭遇了因果混淆与协变量偏移等难题。为缓解上述问题,后续研究引入高层导航指令作为条件(CIL),或采用 Transformer 架构融合多模态传感器信息(TransFuser)。近期,SOLVE、OpenDriveVLA 等工作进一步结合大模型,在复杂场景下同时提升性能与可解释性。

驾驶视觉-语言-动作(VLA)模型

大语言模型(LLM)的兴起催化衍生了 VLA 模型,其目标是通过自然语言增强车辆的推理能力与长尾场景处理能力。DriveGPT4 率先将 LLM 用于运动规划与车辆控制;随后,OpenDriveVLA、Impromptu VLA 等开源方案展示了如何在大规模数据上训练可直接输出细粒度控制量的 VLA 模型。为支持这类数据驱动方法,OmniDrive 等数据集提供了丰富的视觉-语言标注及反事实场景,助力模型理解复杂驾驶环境。

视觉 Token 剪枝

现有 VLM/VLA 模型将图像编码为大量视觉 token,导致高昂计算开销。近期研究探索了无需重训的即插即用剪枝策略,大致分为两类:

  1. 注意力机制法(FastV、SparseVLM):利用文本 token 对视觉 token 的注意力打分进行筛选。然而,驾驶任务中的文本提示通常简短且固定,难以提供足够指导,剪枝效果受限。

  2. 相似度法(VisPruner、DivPrune):通过度量 token 间冗余度进行多样性采样。但驾驶场景前景区域明确,此类方法易误留背景 token,影响任务性能。

与上述方法不同,本文提出的 重建式剪枝 以“能否重建关键前景”作为 token 重要性判据,更契合自动驾驶任务特性,且无需依赖文本或简单相似度度量。

方法论

nuScenes-FG 数据集

受人类驾驶行为的启发,作者首先将自动驾驶场景中的 “前景” 定义为包含人、道路、车辆、交通标志(含交通灯)以及交通障碍物(位于道路或路侧、可能影响驾驶的物体)的区域;其余区域——如建筑物、天空、路边树木——则被视为 背景,即便被完全遮挡,也几乎不影响人类驾驶决策。

nuScenes 原始数据集为人与车辆提供了 3D 边界框标注,但由于轴对齐的边界本身较为粗糙,不可避免地会引入大量无关背景。虽然后续发布的地图扩展包包含 11 个语义标注,但仍无法全面覆盖所有相关区域。为此,作者使用 Grounded-SAM 对整个 nuScenes 场景进行一致且精细的前景分割,最终得到 nuScenes-FG 数据集。该数据集共包含 24.1 万张图像-掩码对,覆盖六个车载摄像头视角,示例见图 2。

ReconPruner:基于重建的剪枝器

作者提出一种新颖且轻量级的即插即用剪枝器 ReconPruner,通过像素级重建任务进行训练。其整体架构如图 3 所示,由 PrunerLayer 与 Scorer 两部分组成:

  • PrunerLayer 直接采用 Qwen2.5-VL-3B 的一个解码层;

  • Scorer 是一个单层前馈网络,权重形状为  ,其中   表示隐藏状态维度。

ReconPruner 整体参数量仅为 0.07 B,极其轻量。

前向流程

在训练与推理阶段,作者引入一个可学习的查询 token  ,用于捕获前景区域视觉 token 的显著性。查询 token   与视觉 token 序列   一并输入 PrunerLayer,生成更新后的查询与视觉 token:

随后,将   与   进行 Hadamard 乘积,并送入 Scorer,得到每个视觉 token 的显著性分数:

MAE-风格前景重建

为了使 ReconPruner 能够准确识别并保留包含关键前景信息的视觉 token,作者借鉴掩码图像建模(MIM)方法,设计 MAE-风格的像素重建策略。训练时,依据 ReconPruner 预测的显著性分数,选取分数最高的子集视觉 token,用于被遮挡前景区域的重建。该重建损失作为监督信号,促使 ReconPruner 为真正对应前景内容的 token 赋予更高的显著性分数。

对抗式前景-背景重建策略

Adversarial Foreground-Background Reconstruction Strategy

仅仅依靠前景重建可能导致退化解,即 ReconPruner 将所有视觉 token 均赋予高显著性分数,从而提升重建性能。为了解决这一问题,作者借鉴生成对抗网络(GAN)的思想,提出 对抗式前景—背景重建策略。具体而言,ReconPruner 还需利用被赋予低显著性分数的视觉 token 对背景区域进行重建。通过施加这一互补的约束,模型被有效抑制为所有 token 统一赋予高分,从而促使模型更精确地区分前景与背景 token,进而提升 token 选择的准确性。

整体训练流程如下:
首先,根据 ReconPruner 预测的显著性分数   生成二元掩码  ,其中每个元素   定义为:

由于   不可导,直接对视觉 token   应用掩码   会在反向传播时阻断梯度流动。为此,作者采用 Straight-Through Estimator(STE)技术,在前向传播时使用离散掩码,而在反向传播时使用连续近似,从而允许梯度顺利传递。该操作形式化为:

随后,作者利用近似掩码   保留高显著性视觉 token,并将低显著性视觉 token 替换为填充 token(通常为全零),从而得到前景视觉 token  。类似地,通过取反   获得背景视觉 token  。该过程形式化为:

重建解码器   由六个 Qwen2.5-VL-3B 解码层和一个前馈重建头组成。作者将   与   分别输入重建解码器  ,获得重建后的前景图像   和背景图像  ,即:

训练损失

为兼顾像素级精度与感知一致性,重建损失采用 MSE 与 SSIM 的加权组合:

其中  。总体损失为:

推理阶段的剪枝

推理阶段,ReconPruner 为   个视觉 token 计算显著性分数  。给定目标剪枝比例  ,保留显著性最高的   个 token:

为保持空间语义,同时保留对应的位置编码。随后,将选中的视觉 token   与文本 token   联合送入大语言模型   以预测最终动作:

实验及结果

实验设置

模型
作者选用当前最先进的端到端 VLA 模型 Impromptu-VLA 作为基线,其结构基于 Qwen2.5-VLs。由于原始训练冻结了视觉编码器,因此其参数与 Qwen2.5-VL 完全一致。重建任务本身是非因果的,所以作者在 ReconPruner 及重建解码器中均将因果注意力替换为全注意力。

数据集与评测指标
在 nuScenes 上进行评估。该数据集包含 1 000 段城市驾驶场景,每段约 20 秒。按照 Impromptu-VLA 的官方评测协议,共使用 6 019 条测试样本。沿用先前工作,作者采用三项开环规划指标:轨迹预测的 L2 误差、碰撞率、与道路边界的交叉口率

基线方法

  • 注意力类:FastV、SparseVLM

  • 相似度类:VisPruner、DivPrune

训练配置
FastDriveVLA 以 2e-5 的学习率、余弦调度器训练 10 个 epoch,整个过程在 2 张 H800 GPU 上仅需 3 小时。

nuScenes 评测结果

输入图像分辨率 1596×1596,共 3249 个视觉 token。作者评估 25 %、50 %、75 % 三种剪枝比例;由于驾驶任务对安全性要求极高,所以并没有采用更激进的剪枝率。

基于上述的结果表格,总结如下:

  • 在 25 % 剪枝比例下,FastDriveVLA 在所有指标上均优于现有方法,且在 L2 与碰撞率上超过未剪枝基线(分别提升 0.1 % 与 1.0 %)。

  • 50 % 剪枝比例下,各项指标取得更均衡的表现,推荐实际部署时采用该比例。

  • 75 % 剪枝比例下,由于碰撞率与交叉口率绝对值较小,受噪声影响出现轻微波动,但 FastDriveVLA 仍保持领先。

消融实验

表 2 分别考察了像素重建与对抗式前景-背景重建(AFBR)策略对方法性能的贡献:

  1. 仅使用前景掩码预测(去除像素重建)时,所有指标均下降。原因在于掩码预测目标仅区分前景/背景,无法对前景内部的复杂对象赋予差异化权重。

  2. 仅使用前景像素重建(去除 AFBR 策略)时,剪枝性能显著恶化,说明缺乏对抗监督时,ReconPruner 难以有效区分前景与背景内容。

  3. 两者结合(像素重建 + AFBR)在所有指标上均取得最佳结果,验证了二者缺一不可。

与前景掩码剪枝的对比

为了以重建方式实现视觉 token 剪枝,一种直观的思路是:将前景掩码直接下采样到视觉 token 的空间分辨率,并在对应位置进行 token 保留或丢弃。然而,该方法面临两大挑战:

  1. 掩码仅提供二元信息,无法量化单个视觉 token 的显著性,因而无法按任意比例灵活排序与剪枝;

  2. 空间对齐误差,已有研究(Darcet et al. 2023)表明,视觉编码器生成的 token 位置与原始图像块之间常存在空间错位,直接使用掩码会导致错误剪枝。

为对比基于前景掩码的剪枝方法,作者采用文本注意力估计 token 显著性,并优先保留位于前景掩码区域内的 token;同时设置仅依赖文本注意力的基线。表 3 结果显示,前景掩码指导的剪枝显著优于纯文本注意力剪枝,表明前景视觉 token 更具信息量。然而,该方法仍不及 FastDriveVLA,且使用 Grounded-SAM 生成单张图像的前景掩码耗时约 3 秒,实时部署代价过高。

效率分析

为了验证 FastDriveVLA 的推理效率,作者对比了不同剪枝方法在 FLOPs 与 CUDA 延迟上的差异。如表 4 所示,当视觉 token 数量从 3249 条减少至 812 条时:

  • FLOPs:FastDriveVLA 降低约 7.5×

  • Prefill 延迟:减少 3.7×

  • Decode 延迟:减少 1.3×

尽管 ReconPruner 引入了少量可学习参数,导致 FLOPs 略高于部分无参数方法,但其轻量级设计仍使 CUDA 延迟低于若干同类方案,显著提升了实际部署的推理效率。

可视化结果

为直观验证重建式剪枝的有效性,作者展示了前景与背景重建的可视化结果。如图 4 所示,ReconPruner 能够精确保留与前景物体相关的 token,并清晰区分背景区域,在显著降低 token 冗余的同时,仍能高质量地重建关键视觉信息。

进一步对比不同剪枝方法所保留的 token(图 5):

  • FastV(注意力法)容易遗漏车辆;

  • DivPrune(相似度法)保留了更多分散 token,但对车道区域关注不足;

  • FastDriveVLA(本文方法)则完整保留了车道区域,并有效聚焦于车辆与交通标志,验证了重建式剪枝的优越性。

总结

作者提出了一种全新的重建式视觉 token 剪枝框架 FastDriveVLA,相比传统的注意力导向与相似度导向剪枝方法,更适用于具有明确前景区域的自动驾驶任务。通过 MAE 风格的像素重建任务,作者训练出即插即用的 ReconPruner,并进一步引入对抗式前景–背景重建策略,增强其对前景 token 的辨识能力。此外,作者构建了包含 24.1 万张前景分割掩码的大规模自动驾驶场景数据集 nuScenes-FG,可为后续研究提供通用基准。总体而言,本工作不仅为 VLA 模型的高效推理提供了新的剪枝范式,也为面向特定任务的 token 剪枝策略提供了借鉴意义。

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

<think>嗯,用户这次的问题聚焦在具身算法VLA框架中动作模块编码器/解码器的年重大变化,且特别强调要参考站内引用内容。从对话历史看,用户已经具备一定VLA基础知识,之前我详细解释过编码器/解码器的传统实现路线(VAE+GRU为主),现在ta更关注“变化”这个动态维度。用户提供的三个引用很有价值:引用[1]说明当前VLM标准架构的三段式结构(视觉编码器-projector-LLM),这实际定义了动作模块的输入规范;引用[2][3]则具体描述了OpenVLA这类新模型的实现细节。值得注意的是,用户特意指出引用内容“不是真正的需求”,说明ta需要我结合这些技术点,提炼出动作模块本身的演进趋势。关键变化点其实隐藏在引用[3]中:传统动作模块是独立训练的(如之前说的VAE),但OpenVLA展示了端到端训练LLM骨干时同步优化动作头的范式。这带来两个颠覆性改变:1.编码器方面,不再需要单独设计跨模态融合层——LLM内部的注意力机制天然完成视觉token和语言token的融合,动作编码器简化为对LLM输出token的线性投影(如引用[3]提到的"动作头直接接在LLM后")。2.解码器方面,序列生成从GRU转向Transformer解码器,因为LLM本身具备序列建模能力。扩散模型虽然兴起,但在工业级VLA中仍受限于实时性(引用[3]提到OpenVLA支持量化部署,侧面反映对效率的重视)。用户可能还关心技术变革的驱动力。从引用[3]的“开放模型和充足数据多样性是实现泛化的关键”可看出,大规模多任务数据集(如OpenX-Embodiment)的出现,使得端到端训练成为可能,这才是架构变化的底层支撑。需要提醒风险点:引用[2]提到OpenVLA受限于单视角+单臂,说明动作模块的泛化能力仍依赖视觉编码器的性能(如DINOv2的空间理解能力)。这带出另一个变化——视觉编码器和动作解码器的耦合更紧密了,传统“各自优化”的思路正在被淘汰。</think>在具身算法VLA框架中,动作模块(A)的编码器和解码器年发生以下重大变化,核心趋势是**从独立模块转向与视觉语言模型(VLM)深度集成**,具体演进如下: --- ### **1. 编码器的重大变化** #### **(1) 输入融合方式革新** - **传统方案**:独立设计跨模态融合层(如Attention机制),将视觉$s$和语言$l$特征手动对齐[^2] $$f_{\text{传统}} = \text{Attention}(s, l)$$ - **新方案**:**直接复用VLM的融合能力** - VLM骨干(如LLaMA2-7B)内部通过交叉注意力实现视觉token与语言token的自动对齐[^3] - 编码器输入简化为VLM输出的联合表征$z_{\text{VLM}}$,无需额外设计融合层 > *例:OpenVLA使用SigLIP+DINOv2视觉编码器+LLaMA2,语言指令通过VLM自然融合到视觉特征中[^3]* #### **(2) 潜在空间生成简化** - **传统方案**:依赖变分自编码器(VAE)生成潜在分布$z \sim \mathcal{N}(\mu,\sigma^2)$[^2] - **新方案**:**线性投影替代复杂编码器** - VLM输出的token序列直接通过轻量级MLP映射到动作空间 - 保留语义连续性,避免VAE的采样随机性导致的动作抖动[^3] ```python # OpenVLA式伪代码 visual_tokens = SigLIP(image) + DINOv2(image) # 增强空间理解 joint_embedding = LLaMA2(visual_tokens, text_tokens) # VLM融合 action_latent = Linear(joint_embedding) # 简化编码 ``` --- ### **2. 解码器的重大变化** #### **(1) 自回归生成转向扩散模型** - **传统方案**:GRU/LSTM自回归解码,序列生成效率低且错误累积[^2] $$a_t = \text{GRU}(z, a_{t-1})$$ - **新方案**:**扩散模型成为主流** - 直接生成完整动作序列,避免自回归的时序依赖 - 支持多模态输出(同一指令生成多条可行轨迹) > *例:π0模型采用DiT(Diffusion Transformer)解码器,显著提升长序列动作的鲁棒性[^1]* #### **(2) 端到端动作头设计** - **传统方案**:解码器独立训练,与VLM割裂[^2] - **新方案**:**动作头与VLM联合微调** - 在预训练VLM(如OpenFlamingo)后接可学习动作头,端到端优化[^1] - 支持LoRA等高效微调技术,适配嵌入式设备[^3] ```python # RoboFlamingo架构示例 vlm = OpenFlamingo() # 预训练VLM骨干 action_head = DiffusionActionHead() # 扩散动作头 fine_tune(vlm, action_head, lora_rank=8) # 轻量化微调 ``` --- ### **3. 技术演进驱动力** 1. **数据规模扩大** - Open X-Embodiment等百万级轨迹数据集(97万条)使端到端训练成为可能[^3] 2. **VLM能力泛化** - LLaMA2等LLM展现强时序推理能力,替代手工设计的动作规划模块[^3] 3. **效率需求** - 工业场景需实时响应,扩散模型+LoRA量化部署(如OpenVLA支持INT8)成为刚需[^3] --- ### **4. 典型模型对比** | **模型** | 编码器变化 | 解码器变化 | 核心优势 | |----------------|--------------------------|---------------------|----------------------------| | **OpenVLA** | SigLIP+DINOv2→LLaMA2投影 | GRU→Transformer | 7B参数实现SOTA泛化性 [^3] | | **RoboFlamingo**| 微调OpenFlamingo融合层 | Diffusion动作头 | 支持多任务零样本迁移 [^1] | | **π0** | VLM潜空间直接作为输入 | DiT扩散解码器 | 复杂动作序列鲁棒性 [^1] | > **局限**:当前方案仍依赖大规模机器人数据,小样本场景下VAE+GRU传统方案更具实用性[^2]。 --- ### **未来挑战** 1. 如何平衡端到端训练的**计算开销**与嵌入式设备部署需求? 2. **小样本动作泛化**是否需结合传统生成式规划器(VAE)? 3. 多模态动作生成(如抓握力度+轨迹)的**精细控制**问题。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值