面向量产VLA方案！FastDriveVLA：即插即用剪枝模块，推理加速近4倍（北大&小鹏）

最新推荐文章于 2025-12-02 15:56:47 发布

转载最新推荐文章于 2025-12-02 15:56:47 发布 · 254 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247674068&idx=1&sn=8a466862adb159acbd4166e51638e250&chksm=cf84c39750535aeb3d86d5c6e9ba85d1e6faeafebc15f6235765cf2c63baf0510555a3094557&scene=126&sessionid=0

文章标签：

#剪枝 #算法 #机器学习 #人工智能 #数据挖掘

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

今天自动驾驶之心为大家分享北京大学，小鹏汽车最新的工作！FastDriveVLA：对抗性视觉token剪枝，50%压缩率下性能保持97.3%！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群加入，也欢迎添加小助理微信AIDriver005

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Jiajun Cao等

编辑 | 自动驾驶之心

写在前面 && 笔者理解

近年来，端到端自动驾驶研究进展神速，各家也都在如火如荼的宣传自家的端到端方案。与传统模块化方案（感知→预测→规划）不同，端到端方法在同一个模型中完成全部感知到规划的过程，有效减少了不同模块之间的信息损失，也从某种角度简化了系统架构。但是技术的进步不止于此，随着视觉-语言大模型（VLM）在视觉问答任务中展现出令人称奇的推理能力，很多研究人员及算法团队开始将其扩展至具身智能和自动驾驶领域，通过引入动作生成功能，形成了视觉-语言-动作（VLA）模型。相较传统模块化方案，VLA 模型在复杂场景理解与决策方面表现更优，已经被越来越多的端到端自动驾驶系统采用。

论文链接：https://www.arxiv.org/pdf/2507.23318

不过，VLM/VLA 模型通常将输入图像编码为大量视觉，会带来高昂的计算开销与推理延迟，在车载芯片上实际部署时有着较高的时延压力。为缓解这一问题，现有研究主要从两个方向进行视觉 token 剪枝：

注意力机制导向方法
依据文本 token 与视觉 token 之间的注意力权重进行筛选。但是因为驾驶任务中的文本指令往往固定且简短，提供的监督信息有限，导致剪枝效果不佳。
相似度导向方法
通过度量视觉 token 间的冗余度进行去重。驾驶场景通常包含明确的前景区域（车道、车辆、行人等），此类方法易误删关键前景 token 而保留无关背景 token，难以满足任务需求。

针对上述的局限性 (参考图 1)，作者提出 FastDriveVLA——一种面向自动驾驶场景的重建式视觉 token 剪枝框架。其核心思想来源于人类驾驶行为：驾驶员主要关注与决策直接相关的前景区域，背景区域几乎对驾驶决策没什么影响。因此，保留编码前景信息的 token 即可在保证性能的同时显著降低计算成本。

FastDriveVLA 包含一个即插即用的剪枝器 ReconPruner，通过 MAE 风格的像素重建任务进行训练，使模型能够聚焦于前景区域并为包含关键信息的 token 赋予更高显著性分数。为防止模型陷入“所有 token 都高分”的退化解，作者进一步引入对抗式前景-背景重建策略：在利用高分 token 重建前景的同时，强制低分 token 重建背景，从而增强模型对前景与背景的区分能力。

训练完成后，ReconPruner 可直接嵌入任何共享相同视觉编码器的 VLA 模型，无需重新训练。为支持 ReconPruner 的训练，作者构建了大规模数据集 nuScenes-FG，基于 nuScenes 并使用 GroundedSAM 进行前景分割标注，共计 24.1 万张图像-mask 对，涵盖六个车载摄像头视角。

总结来看，本文贡献如下：

提出面向自动驾驶的重建式视觉 token 剪枝框架 FastDriveVLA；
设计即插即用剪枝器 ReconPruner，并引入对抗式前景-背景重建策略；
构建并发布 nuScenes-FG 数据集，提供细粒度前景分割标注；
在 nuScenes 闭环规划基准上取得 SOTA 结果，验证方法有效性与实用性。

方法论

nuScenes-FG 数据集

受人类驾驶行为的启发，作者首先将自动驾驶场景中的 “前景” 定义为包含人、道路、车辆、交通标志（含交通灯）以及交通障碍物（位于道路或路侧、可能影响驾驶的物体）的区域；其余区域——如建筑物、天空、路边树木——则被视为背景，即便被完全遮挡，也几乎不影响人类驾驶决策。

nuScenes 原始数据集为人与车辆提供了 3D 边界框标注，但由于轴对齐的边界本身较为粗糙，不可避免地会引入大量无关背景。虽然后续发布的地图扩展包包含 11 个语义标注，但仍无法全面覆盖所有相关区域。为此，作者使用 Grounded-SAM 对整个 nuScenes 场景进行一致且精细的前景分割，最终得到 nuScenes-FG 数据集。该数据集共包含 24.1 万张图像-掩码对，覆盖六个车载摄像头视角，示例见图 2。

ReconPruner：基于重建的剪枝器

作者提出一种新颖且轻量级的即插即用剪枝器 ReconPruner，通过像素级重建任务进行训练。其整体架构如图 3 所示，由 PrunerLayer 与 Scorer 两部分组成：

PrunerLayer 直接采用 Qwen2.5-VL-3B 的一个解码层；
Scorer 是一个单层前馈网络，权重形状为，其中表示隐藏状态维度。

ReconPruner 整体参数量仅为 0.07 B，极其轻量。

前向流程

在训练与推理阶段，作者引入一个可学习的查询 token ，用于捕获前景区域视觉 token 的显著性。查询 token 与视觉 token 序列一并输入 PrunerLayer，生成更新后的查询与视觉 token：

随后，将与进行 Hadamard 乘积，并送入 Scorer，得到每个视觉 token 的显著性分数：

MAE-风格前景重建

为了使 ReconPruner 能够准确识别并保留包含关键前景信息的视觉 token，作者借鉴掩码图像建模（MIM）方法，设计 MAE-风格的像素重建策略。训练时，依据 ReconPruner 预测的显著性分数，选取分数最高的子集视觉 token，用于被遮挡前景区域的重建。该重建损失作为监督信号，促使 ReconPruner 为真正对应前景内容的 token 赋予更高的显著性分数。

对抗式前景-背景重建策略

Adversarial Foreground-Background Reconstruction Strategy

仅仅依靠前景重建可能导致退化解，即 ReconPruner 将所有视觉 token 均赋予高显著性分数，从而提升重建性能。为了解决这一问题，作者借鉴生成对抗网络（GAN）的思想，提出 对抗式前景—背景重建策略。具体而言，ReconPruner 还需利用被赋予低显著性分数的视觉 token 对背景区域进行重建。通过施加这一互补的约束，模型被有效抑制为所有 token 统一赋予高分，从而促使模型更精确地区分前景与背景 token，进而提升 token 选择的准确性。

整体训练流程如下：
首先，根据 ReconPruner 预测的显著性分数生成二元掩码，其中每个元素定义为：

由于不可导，直接对视觉 token 应用掩码会在反向传播时阻断梯度流动。为此，作者采用 Straight-Through Estimator（STE）技术，在前向传播时使用离散掩码，而在反向传播时使用连续近似，从而允许梯度顺利传递。该操作形式化为：

随后，作者利用近似掩码保留高显著性视觉 token，并将低显著性视觉 token 替换为填充 token（通常为全零），从而得到前景视觉 token 。类似地，通过取反获得背景视觉 token 。该过程形式化为：

重建解码器由六个 Qwen2.5-VL-3B 解码层和一个前馈重建头组成。作者将与分别输入重建解码器，获得重建后的前景图像和背景图像，即：

训练损失

为兼顾像素级精度与感知一致性，重建损失采用 MSE 与 SSIM 的加权组合：

其中。总体损失为：

推理阶段的剪枝

推理阶段，ReconPruner 为个视觉 token 计算显著性分数。给定目标剪枝比例，保留显著性最高的个 token：

为保持空间语义，同时保留对应的位置编码。随后，将选中的视觉 token 与文本 token 联合送入大语言模型以预测最终动作：

实验及结果

实验设置

模型
作者选用当前最先进的端到端 VLA 模型 Impromptu-VLA 作为基线，其结构基于 Qwen2.5-VLs。由于原始训练冻结了视觉编码器，因此其参数与 Qwen2.5-VL 完全一致。重建任务本身是非因果的，所以作者在 ReconPruner 及重建解码器中均将因果注意力替换为全注意力。

数据集与评测指标
在 nuScenes 上进行评估。该数据集包含 1 000 段城市驾驶场景，每段约 20 秒。按照 Impromptu-VLA 的官方评测协议，共使用 6 019 条测试样本。沿用先前工作，作者采用三项开环规划指标：轨迹预测的 L2 误差、碰撞率、与道路边界的交叉口率

基线方法

注意力类：FastV、SparseVLM
相似度类：VisPruner、DivPrune

训练配置
FastDriveVLA 以 2e-5 的学习率、余弦调度器训练 10 个 epoch，整个过程在 2 张 H800 GPU 上仅需 3 小时。

nuScenes 评测结果

输入图像分辨率 1596×1596，共 3249 个视觉 token。作者评估 25 %、50 %、75 % 三种剪枝比例；由于驾驶任务对安全性要求极高，所以并没有采用更激进的剪枝率。

基于上述的结果表格，总结如下：

在 25 % 剪枝比例下，FastDriveVLA 在所有指标上均优于现有方法，且在 L2 与碰撞率上超过未剪枝基线（分别提升 0.1 % 与 1.0 %）。
50 % 剪枝比例下，各项指标取得更均衡的表现，推荐实际部署时采用该比例。
75 % 剪枝比例下，由于碰撞率与交叉口率绝对值较小，受噪声影响出现轻微波动，但 FastDriveVLA 仍保持领先。

消融实验

表 2 分别考察了像素重建与对抗式前景-背景重建（AFBR）策略对方法性能的贡献：

仅使用前景掩码预测（去除像素重建）时，所有指标均下降。原因在于掩码预测目标仅区分前景/背景，无法对前景内部的复杂对象赋予差异化权重。
仅使用前景像素重建（去除 AFBR 策略）时，剪枝性能显著恶化，说明缺乏对抗监督时，ReconPruner 难以有效区分前景与背景内容。
两者结合（像素重建 + AFBR）在所有指标上均取得最佳结果，验证了二者缺一不可。

与前景掩码剪枝的对比

为了以重建方式实现视觉 token 剪枝，一种直观的思路是：将前景掩码直接下采样到视觉 token 的空间分辨率，并在对应位置进行 token 保留或丢弃。然而，该方法面临两大挑战：

掩码仅提供二元信息，无法量化单个视觉 token 的显著性，因而无法按任意比例灵活排序与剪枝；
空间对齐误差，已有研究（Darcet et al. 2023）表明，视觉编码器生成的 token 位置与原始图像块之间常存在空间错位，直接使用掩码会导致错误剪枝。

为对比基于前景掩码的剪枝方法，作者采用文本注意力估计 token 显著性，并优先保留位于前景掩码区域内的 token；同时设置仅依赖文本注意力的基线。表 3 结果显示，前景掩码指导的剪枝显著优于纯文本注意力剪枝，表明前景视觉 token 更具信息量。然而，该方法仍不及 FastDriveVLA，且使用 Grounded-SAM 生成单张图像的前景掩码耗时约 3 秒，实时部署代价过高。

效率分析

为了验证 FastDriveVLA 的推理效率，作者对比了不同剪枝方法在 FLOPs 与 CUDA 延迟上的差异。如表 4 所示，当视觉 token 数量从 3249 条减少至 812 条时：

FLOPs：FastDriveVLA 降低约 7.5×；
Prefill 延迟：减少 3.7×；
Decode 延迟：减少 1.3×。

尽管 ReconPruner 引入了少量可学习参数，导致 FLOPs 略高于部分无参数方法，但其轻量级设计仍使 CUDA 延迟低于若干同类方案，显著提升了实际部署的推理效率。

可视化结果

为直观验证重建式剪枝的有效性，作者展示了前景与背景重建的可视化结果。如图 4 所示，ReconPruner 能够精确保留与前景物体相关的 token，并清晰区分背景区域，在显著降低 token 冗余的同时，仍能高质量地重建关键视觉信息。

进一步对比不同剪枝方法所保留的 token（图 5）：

FastV（注意力法）容易遗漏车辆；
DivPrune（相似度法）保留了更多分散 token，但对车道区域关注不足；
FastDriveVLA（本文方法）则完整保留了车道区域，并有效聚焦于车辆与交通标志，验证了重建式剪枝的优越性。

总结

作者提出了一种全新的重建式视觉 token 剪枝框架 FastDriveVLA，相比传统的注意力导向与相似度导向剪枝方法，更适用于具有明确前景区域的自动驾驶任务。通过 MAE 风格的像素重建任务，作者训练出即插即用的 ReconPruner，并进一步引入对抗式前景–背景重建策略，增强其对前景 token 的辨识能力。此外，作者构建了包含 24.1 万张前景分割掩码的大规模自动驾驶场景数据集 nuScenes-FG，可为后续研究提供通用基准。总体而言，本工作不仅为 VLA 模型的高效推理提供了新的剪枝范式，也为面向特定任务的 token 剪枝策略提供了借鉴意义。

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com