点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享北京大学,小鹏汽车最新的工作!FastDriveVLA:对抗性视觉token剪枝,50%压缩率下性能保持97.3%!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群加入,也欢迎添加小助理微信AIDriver005
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
论文作者 | Jiajun Cao等
编辑 | 自动驾驶之心
写在前面 && 笔者理解
近年来,端到端自动驾驶研究进展神速,各家也都在如火如荼的宣传自家的端到端方案。与传统模块化方案(感知→预测→规划)不同,端到端方法在同一个模型中完成全部感知到规划的过程,有效减少了不同模块之间的信息损失,也从某种角度简化了系统架构。但是技术的进步不止于此,随着视觉-语言大模型(VLM)在视觉问答任务中展现出令人称奇的推理能力,很多研究人员及算法团队开始将其扩展至具身智能和自动驾驶领域,通过引入动作生成功能,形成了视觉-语言-动作(VLA)模型。相较传统模块化方案,VLA 模型在复杂场景理解与决策方面表现更优,已经被越来越多的端到端自动驾驶系统采用。
论文链接:https://www.arxiv.org/pdf/2507.23318
不过,VLM/VLA 模型通常将输入图像编码为大量视觉,会带来高昂的计算开销与推理延迟,在车载芯片上实际部署时有着较高的时延压力。为缓解这一问题,现有研究主要从两个方向进行视觉 token 剪枝:
注意力机制导向方法
依据文本 token 与视觉 token 之间的注意力权重进行筛选。但是因为驾驶任务中的文本指令往往固定且简短,提供的监督信息有限,导致剪枝效果不佳。相似度导向方法
通过度量视觉 token 间的冗余度进行去重。驾驶场景通常包含明确的前景区域(车道、车辆、行人等),此类方法易误删关键前景 token 而保留无关背景 token,难以满足任务需求。
针对上述的局限性 (参考图 1),作者提出 FastDriveVLA——一种面向自动驾驶场景的重建式视觉 token 剪枝框架。其核心思想来源于人类驾驶行为:驾驶员主要关注与决策直接相关的前景区域,背景区域几乎对驾驶决策没什么影响。因此,保留编码前景信息的 token 即可在保证性能的同时显著降低计算成本。
FastDriveVLA 包含一个即插即用的剪枝器 ReconPruner,通过 MAE 风格的像素重建任务进行训练,使模型能够聚焦于前景区域并为包含关键信息的 token 赋予更高显著性分数。为防止模型陷入“所有 token 都高分”的退化解,作者进一步引入对抗式前景-背景重建策略:在利用高分 token 重建前景的同时,强制低分 token 重建背景,从而增强模型对前景与背景的区分能力。
训练完成后,ReconPruner 可直接嵌入任何共享相同视觉编码器的 VLA 模型,无需重新训练。为支持 ReconPruner 的训练,作者构建了大规模数据集 nuScenes-FG,基于 nuScenes 并使用 GroundedSAM 进行前景分割标注,共计 24.1 万张图像-mask 对,涵盖六个车载摄像头视角。
总结来看,本文贡献如下:
提出面向自动驾驶的重建式视觉 token 剪枝框架 FastDriveVLA;
设计即插即用剪枝器 ReconPruner,并引入对抗式前景-背景重建策略;
构建并发布 nuScenes-FG 数据集,提供细粒度前景分割标注;
在 nuScenes 闭环规划基准上取得 SOTA 结果,验证方法有效性与实用性。

相关工作
端到端自动驾驶
传统自动驾驶系统遵循感知、预测、规划的分模块 pipeline。与之相比,端到端方法尝试在单一网络中直接学习从原始传感器输入到控制指令的映射。早期 PilotNet 用卷积网络证明了这一思路的可行性,但随后的行为克隆方法遭遇了因果混淆与协变量偏移等难题。为缓解上述问题,后续研究引入高层导航指令作为条件(CIL),或采用 Transformer 架构融合多模态传感器信息(TransFuser)。近期,SOLVE、OpenDriveVLA 等工作进一步结合大模型,在复杂场景下同时提升性能与可解释性。
驾驶视觉-语言-动作(VLA)模型
大语言模型(LLM)的兴起催化衍生了 VLA 模型,其目标是通过自然语言增强车辆的推理能力与长尾场景处理能力。DriveGPT4 率先将 LLM 用于运动规划与车辆控制;随后,OpenDriveVLA、Impromptu VLA 等开源方案展示了如何在大规模数据上训练可直接输出细粒度控制量的 VLA 模型。为支持这类数据驱动方法,OmniDrive 等数据集提供了丰富的视觉-语言标注及反事实场景,助力模型理解复杂驾驶环境。
视觉 Token 剪枝
现有 VLM/VLA 模型将图像编码为大量视觉 token,导致高昂计算开销。近期研究探索了无需重训的即插即用剪枝策略,大致分为两类:
注意力机制法(FastV、SparseVLM):利用文本 token 对视觉 token 的注意力打分进行筛选。然而,驾驶任务中的文本提示通常简短且固定,难以提供足够指导,剪枝效果受限。
相似度法(VisPruner、DivPrune):通过度量 token 间冗余度进行多样性采样。但驾驶场景前景区域明确,此类方法易误留背景 token,影响任务性能。
与上述方法不同,本文提出的 重建式剪枝 以“能否重建关键前景”作为 token 重要性判据,更契合自动驾驶任务特性,且无需依赖文本或简单相似度度量。
方法论
nuScenes-FG 数据集
受人类驾驶行为的启发,作者首先将自动驾驶场景中的 “前景” 定义为包含人、道路、车辆、交通标志(含交通灯)以及交通障碍物(位于道路或路侧、可能影响驾驶的物体)的区域;其余区域——如建筑物、天空、路边树木——则被视为 背景,即便被完全遮挡,也几乎不影响人类驾驶决策。
nuScenes 原始数据集为人与车辆提供了 3D 边界框标注,但由于轴对齐的边界本身较为粗糙,不可避免地会引入大量无关背景。虽然后续发布的地图扩展包包含 11 个语义标注,但仍无法全面覆盖所有相关区域。为此,作者使用 Grounded-SAM 对整个 nuScenes 场景进行一致且精细的前景分割,最终得到 nuScenes-FG 数据集。该数据集共包含 24.1 万张图像-掩码对,覆盖六个车载摄像头视角,示例见图 2。

ReconPruner:基于重建的剪枝器
作者提出一种新颖且轻量级的即插即用剪枝器 ReconPruner,通过像素级重建任务进行训练。其整体架构如图 3 所示,由 PrunerLayer 与 Scorer 两部分组成:
PrunerLayer 直接采用 Qwen2.5-VL-3B 的一个解码层;
Scorer 是一个单层前馈网络,权重形状为 ,其中 表示隐藏状态维度。
ReconPruner 整体参数量仅为 0.07 B,极其轻量。

前向流程
在训练与推理阶段,作者引入一个可学习的查询 token ,用于捕获前景区域视觉 token 的显著性。查询 token 与视觉 token 序列 一并输入 PrunerLayer,生成更新后的查询与视觉 token:
随后,将 与 进行 Hadamard 乘积,并送入 Scorer,得到每个视觉 token 的显著性分数:
MAE-风格前景重建
为了使 ReconPruner 能够准确识别并保留包含关键前景信息的视觉 token,作者借鉴掩码图像建模(MIM)方法,设计 MAE-风格的像素重建策略。训练时,依据 ReconPruner 预测的显著性分数,选取分数最高的子集视觉 token,用于被遮挡前景区域的重建。该重建损失作为监督信号,促使 ReconPruner 为真正对应前景内容的 token 赋予更高的显著性分数。
对抗式前景-背景重建策略
Adversarial Foreground-Background Reconstruction Strategy
仅仅依靠前景重建可能导致退化解,即 ReconPruner 将所有视觉 token 均赋予高显著性分数,从而提升重建性能。为了解决这一问题,作者借鉴生成对抗网络(GAN)的思想,提出 对抗式前景—背景重建策略。具体而言,ReconPruner 还需利用被赋予低显著性分数的视觉 token 对背景区域进行重建。通过施加这一互补的约束,模型被有效抑制为所有 token 统一赋予高分,从而促使模型更精确地区分前景与背景 token,进而提升 token 选择的准确性。
整体训练流程如下:
首先,根据 ReconPruner 预测的显著性分数
生成二元掩码
,其中每个元素
定义为:
由于 不可导,直接对视觉 token 应用掩码 会在反向传播时阻断梯度流动。为此,作者采用 Straight-Through Estimator(STE)技术,在前向传播时使用离散掩码,而在反向传播时使用连续近似,从而允许梯度顺利传递。该操作形式化为:
随后,作者利用近似掩码 保留高显著性视觉 token,并将低显著性视觉 token 替换为填充 token(通常为全零),从而得到前景视觉 token 。类似地,通过取反 获得背景视觉 token 。该过程形式化为:
重建解码器 由六个 Qwen2.5-VL-3B 解码层和一个前馈重建头组成。作者将 与 分别输入重建解码器 ,获得重建后的前景图像 和背景图像 ,即:
训练损失
为兼顾像素级精度与感知一致性,重建损失采用 MSE 与 SSIM 的加权组合:
其中 。总体损失为:
推理阶段的剪枝
推理阶段,ReconPruner 为 个视觉 token 计算显著性分数 。给定目标剪枝比例 ,保留显著性最高的 个 token:
为保持空间语义,同时保留对应的位置编码。随后,将选中的视觉 token 与文本 token 联合送入大语言模型 以预测最终动作:
实验及结果
实验设置
模型
作者选用当前最先进的端到端 VLA 模型 Impromptu-VLA 作为基线,其结构基于 Qwen2.5-VLs。由于原始训练冻结了视觉编码器,因此其参数与 Qwen2.5-VL 完全一致。重建任务本身是非因果的,所以作者在 ReconPruner 及重建解码器中均将因果注意力替换为全注意力。
数据集与评测指标
在 nuScenes 上进行评估。该数据集包含 1 000 段城市驾驶场景,每段约 20 秒。按照 Impromptu-VLA 的官方评测协议,共使用 6 019 条测试样本。沿用先前工作,作者采用三项开环规划指标:轨迹预测的 L2 误差、碰撞率、与道路边界的交叉口率
基线方法
注意力类:FastV、SparseVLM
相似度类:VisPruner、DivPrune
训练配置
FastDriveVLA 以 2e-5 的学习率、余弦调度器训练 10 个 epoch,整个过程在 2 张 H800 GPU 上仅需 3 小时。
nuScenes 评测结果
输入图像分辨率 1596×1596,共 3249 个视觉 token。作者评估 25 %、50 %、75 % 三种剪枝比例;由于驾驶任务对安全性要求极高,所以并没有采用更激进的剪枝率。

基于上述的结果表格,总结如下:
在 25 % 剪枝比例下,FastDriveVLA 在所有指标上均优于现有方法,且在 L2 与碰撞率上超过未剪枝基线(分别提升 0.1 % 与 1.0 %)。
50 % 剪枝比例下,各项指标取得更均衡的表现,推荐实际部署时采用该比例。
75 % 剪枝比例下,由于碰撞率与交叉口率绝对值较小,受噪声影响出现轻微波动,但 FastDriveVLA 仍保持领先。
消融实验
表 2 分别考察了像素重建与对抗式前景-背景重建(AFBR)策略对方法性能的贡献:
仅使用前景掩码预测(去除像素重建)时,所有指标均下降。原因在于掩码预测目标仅区分前景/背景,无法对前景内部的复杂对象赋予差异化权重。
仅使用前景像素重建(去除 AFBR 策略)时,剪枝性能显著恶化,说明缺乏对抗监督时,ReconPruner 难以有效区分前景与背景内容。
两者结合(像素重建 + AFBR)在所有指标上均取得最佳结果,验证了二者缺一不可。

与前景掩码剪枝的对比
为了以重建方式实现视觉 token 剪枝,一种直观的思路是:将前景掩码直接下采样到视觉 token 的空间分辨率,并在对应位置进行 token 保留或丢弃。然而,该方法面临两大挑战:
掩码仅提供二元信息,无法量化单个视觉 token 的显著性,因而无法按任意比例灵活排序与剪枝;
空间对齐误差,已有研究(Darcet et al. 2023)表明,视觉编码器生成的 token 位置与原始图像块之间常存在空间错位,直接使用掩码会导致错误剪枝。
为对比基于前景掩码的剪枝方法,作者采用文本注意力估计 token 显著性,并优先保留位于前景掩码区域内的 token;同时设置仅依赖文本注意力的基线。表 3 结果显示,前景掩码指导的剪枝显著优于纯文本注意力剪枝,表明前景视觉 token 更具信息量。然而,该方法仍不及 FastDriveVLA,且使用 Grounded-SAM 生成单张图像的前景掩码耗时约 3 秒,实时部署代价过高。

效率分析
为了验证 FastDriveVLA 的推理效率,作者对比了不同剪枝方法在 FLOPs 与 CUDA 延迟上的差异。如表 4 所示,当视觉 token 数量从 3249 条减少至 812 条时:
FLOPs:FastDriveVLA 降低约 7.5×;
Prefill 延迟:减少 3.7×;
Decode 延迟:减少 1.3×。
尽管 ReconPruner 引入了少量可学习参数,导致 FLOPs 略高于部分无参数方法,但其轻量级设计仍使 CUDA 延迟低于若干同类方案,显著提升了实际部署的推理效率。

可视化结果
为直观验证重建式剪枝的有效性,作者展示了前景与背景重建的可视化结果。如图 4 所示,ReconPruner 能够精确保留与前景物体相关的 token,并清晰区分背景区域,在显著降低 token 冗余的同时,仍能高质量地重建关键视觉信息。

进一步对比不同剪枝方法所保留的 token(图 5):
FastV(注意力法)容易遗漏车辆;
DivPrune(相似度法)保留了更多分散 token,但对车道区域关注不足;
FastDriveVLA(本文方法)则完整保留了车道区域,并有效聚焦于车辆与交通标志,验证了重建式剪枝的优越性。

总结
作者提出了一种全新的重建式视觉 token 剪枝框架 FastDriveVLA,相比传统的注意力导向与相似度导向剪枝方法,更适用于具有明确前景区域的自动驾驶任务。通过 MAE 风格的像素重建任务,作者训练出即插即用的 ReconPruner,并进一步引入对抗式前景–背景重建策略,增强其对前景 token 的辨识能力。此外,作者构建了包含 24.1 万张前景分割掩码的大规模自动驾驶场景数据集 nuScenes-FG,可为后续研究提供通用基准。总体而言,本工作不仅为 VLA 模型的高效推理提供了新的剪枝范式,也为面向特定任务的 token 剪枝策略提供了借鉴意义。
自动驾驶之心
论文辅导来啦
自驾交流群来啦!
自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com