NeurIPS‘25!AutoPrune:即插即用的自适应大模型剪枝框架

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

论文作者 | Hanshi Wang等

编辑 | 自动驾驶之心

先前大模型轻量化的token pruning论文主要集中在token的重要性度量metric上,但是实验发现其实还是最基础简单的几个算法更加通用,所以本文从另一个维度考虑这个问题:在设定的budget下,如何给网络每一层分配pruning的比例。

现有方法通常是设置了固定的layer-wise allocation策略,要么在decoder最前面直接剪完,要么手工固定某几层设置比例,但是很明显这不是最优解,因为输入问题和场景的难度不同,token注意力集中的速度也不一样。

针对上述问题,上交和中科院的团队提出了 AutoPrune,一种training free的复杂度自适应剪枝框架。本文提出的算法用decoder浅层的视觉与文本互信息度量样本与任务难度,然后将该数字映射为受budget(全局计算量预算)约束的 Logistic 保留曲线,从而对每个样本生成层间视觉token数量保留轨迹,这样可以实现在固定计算预算下实现动态地提前剪枝或延迟剪枝。以 LLaVA-1.5-7B 为例,剪去 89% 视觉token与降低 76.8% FLOPs 的同时仍保留 96.7% 原始精度,相比 PDrop (CVPR)提升 9.1%。方法同样适用于 LLaVA-NeXT 与自动驾驶 VLA 模型。

论文标题:Each Complexity Deserves a Pruning Policy
作者单位:上交,中科院,Anyverse Intelligence
论文链接:https://arxiv.org/abs/2509.23931
代码链接:https://github.com/AutoLab-SAI-SJTU/AutoPrune

背景回顾

视觉语言模型已成为多模态系统的核心。它们支撑图像描述与 VQA 与多模态对话等任务。面向具身智能的扩展如自动驾驶的 VLA 框架将感知与控制耦合以实现端到端推理。高分辨率图像或视频被转换为大量视觉token会带来显著的显存与延迟瓶颈。因此在实时场景下高效简洁并且training free的剪枝尤为重要。

之前的工作普遍观察到在decoder后期视觉 token 的信息贡献显著衰减,但是作者发现,现有算法在每层设置多少裁剪比例时,通常采用固定的策略。这种形式一方面缺乏全局计算budget约束,另一方面需要手工调参以满足目标 token 数或 FLOPs 预算且泛化性有限。对于需要多步推理与动态跨模态交互的任务如 VQA ,固定策略难以适配样本与任务差异。如图中所示,我们的分析显示 token 重要性的层间变化随输入图像与提问问题的难度而变化。

如果对比人类的观察和思考特点,我们发现人类在问题表达明确和场景简单时会快速收敛到目标。表达含糊和场景复杂时则需要在前额顶叶网络中维持多种假设并多次视线转移。与此对应,我们对 VLM 的分析显示 简单样本(指问题和场景都比较简单)在浅层即可迅速收敛跨模态注意力。复杂样本在层间呈现更强的显著性波动与更分散的注意。这表明单一固定的layerwise allocation剪枝策略难以满足多样的推理需求。

针对这个问题,我们提出 Complexity-Adaptive Pruning ,为每个输入分配个性化剪枝策略。我们从decoder浅层的视觉与文本 token 的注意图估计互信息以作为任务和场景复杂度指标。互信息高意味着任务简单容易定位问题答案,互信息低意味着需要更长程的探索。在得到互信息后,我们将该标量映射为layer-wise token保留曲线(logistic曲线),从而刻画token从探索到收敛的过程。曲线斜率与拐点由互信息线性映射得到,映射后曲线的形状决定了针对该样本的裁剪策略,即对于简单样本时前期进行更激进剪枝,对于复杂样本则相反。为了保证严格符合给定的计算budget,我们通过计算积分并进行重标定使曲线下面积等于给定的 token 或 FLOPs 预算。针对不同样本得到的logistic曲线分布如下图所示。

关键贡献

  • 复杂度度量:从跨模态注意中直接计算视觉与文本的互信息,以此刻画样本难度与任务复杂度

  • 预算约束的保留曲线:将互信息映射到 Logistic保留函数,解析积分并重标定以严格满足标记预算或FLOPs预算

  • 通用与即插即用:无需训练即可接入多种VLM与VLA,跨数据集与剪枝比例稳定优于现有training free方法

算法细节

我们将视觉 token 的剪枝建模为带全局计算预算的约束优化问题。决策变量包含三类策略。其一是按层的 token 分配策略记作  ,指定每层保留多少 token;其二是 token 选择策略记作   决定具体保留哪些 token;其三是 token 恢复策略记作   规定被丢弃的 token 如何在需要时被恢复与重映射。三类策略在统一的计算预算约束下联合优化,并以期最小化期望损失。

我们重点优化按层分配策略  。以往方法要么对所有任务使用统一的策略,无法适配不同的视觉文本需求,要么逐层独立调节,缺乏全局预算约束,常导致剪枝不足与加速比有限的问题。我们的做法在全局范围动态分配各层 token 预算,严格满足总计算约束,从而同时获得自适应性与稳定的加速收益。

基于认知神经科学与可视化分析,我们发现跨模态注意随任务难度呈现两种规律。简单任务在浅层迅速收敛,非相关区域的注意力快速塌缩。复杂任务在多层间发生显著的注意力迁移与扩散,需要更长的探索过程。因此有效的剪枝应遵循动态且全局一致的轨迹,而非单一策略。为实现动态而可控的剪枝,我们提出 AutoPrune,并以早期视觉与文本 token 的互信息作为复杂度指标。互信息高表示对齐强,属于简单任务,允许在浅层更激进地去冗。互信息低表示对齐弱,属于复杂任务,需要更保守的保留策略,以确保关键证据在更深层被利用。

我们将复杂度指标映射为受预算约束的逻辑保留曲线,其中  。曲线在网络深度区间进行解析积分并重标定,使曲线下面积等于给定的 token 预算或 FLOPs 预算  。在实际中,对于离散问题,我们对每层的目标保留数取整,并用二分搜索调整全局尺度因子,使累计成本与预算严格一致,无需逐层手工调参。

为得到真正的复杂度自适应策略,我们让逻辑曲线的斜率   与拐点   线性依赖于互信息。互信息高时,曲线在浅层快速下降,便于尽早去冗并将计算留给深层。互信息低时,曲线前段保持平整,并将快速下降延后到更深层,避免过早丢失关键信息。该参数化直接把复杂度信号映射为样本与任务专属的剪枝策略。

在实现开销方面,额外成本主要来自互信息估计、曲线生成与层内排序。总体时间复杂度近似为  ,与特征维度无关。在常见配置下,这一开销相对于整体推理代价可以忽略,具备工程可行性。

实验效果

  • LLaVA-1.5-7B:保留64token时依然保持 96.7% 原始精度,FLOPs降至 23.2%,中等剪枝下几乎无损。

  • LLaVA-NeXT-7B:在 640 320 160 token预算下均优于对比方法,160预算时仍保留 94.9% 性能。

  • VLA 自动驾驶规划:在 Senna 与自定义nuScenes任务中,在不同的token保留率下均优于baseline方法,有时甚至超过未剪枝模型,显示剪除噪声标记的正效应。

结论

本文提出了复杂度自适应剪枝 AutoPrune 这一无需训练的新框架,用以缓解 VLM 中长视觉序列带来的计算负担。受认知神经科学启发,AutoPrune 通过早期视觉与文本 token 之间的互信息来量化样本与任务的复杂度,并将其映射为受预算约束的个性化Logistic保留曲线,从而在解码器各层决定 token 的剪枝策略。大量实验表明,AutoPrune 简单、可泛化且效果显著,能够支持高效的实时多模态推理与具身智能。我们的研究还揭示了注意力分布的细微差异,这一点在相关工作中也有所观察。尽管 token 重要性总体上随解码器深度增加而下降,我们的结果见图 1 显示深层有时会保留比浅层更关键的 token。尽管本文推进了针对不同样本的逐层剪枝,但仍有进一步研究的空间,比如使策略能够动态匹配跨网络深度变化的关键性token分布。

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值