免训练的VLM剪枝方法!砍75% Token,仅牺牲0.6%效果,速度飙升

这篇论文简直是视觉语言模型(VLM)的“瘦身教练”(咳咳 就是不需锻炼就能瘦 爽~)!大家都知道,ViT和VLM这类模型虽然强悍,但它们的计算量却像吃自助餐一样疯狂——自注意力机制的二次方复杂度,让显卡分分钟想罢工!于是,作者团队祭出了SAINT这个“训练免费”的剪枝神器,通过动态分析token的相似性,像精准的园丁一样修剪冗余部分,让模型跑得飞快还不掉性能!

论文:Similarity-Aware Token Pruning: Your VLM but Faster
链接:https://arxiv.org/abs/2503.11549v1
项目:https://github.com/ArmenJeddi/saint

方法

SAINT的核心思路可以概括为:用图论玩消消乐!它把每个token当作图中的节点,计算它们之间的余弦相似度,构建一个“谁和谁长得像”的关系网。接着,SAINT像侦探一样,通过节点度数(邻居数量)和相似度分数,揪出那些“混日子”的冗余token,然后无情踢出群聊!

SAINT的流程图
SAINT的流程图

整个过程分三步走:

  1. 二分图构建:把token分成两队(src和dst),计算两队之间的相似度,像相亲大会一样匹配“灵魂伴侣”。

  2. 动态投票:根据相似度阈值(τ)和邻居数量(K),让模型自己决定“这层该剪多少头发”。

  3. 冗余排名:给每个token打“无聊分”,分数高的直接淘汰,只留下最独特的仔继续干活!

实验

为了证明SAINT不是花架子,作者们祭出了一系列“魔鬼测试”:

ViT实验:涡轮加速,性能稳如狗

在ImageNet-1K上,SAINT给ViT-H/14模型装上了“氮气加速”——吞吐量翻倍,准确率仅掉0.6%!对比其他方法(比如ToMe和PPT),SAINT像学霸一样轻松碾压,准确率高出0.8%!

ViT模型在不同剪枝方法下的准确率-吞吐量曲线
ViT模型在不同剪枝方法下的准确率-吞吐量曲线
VLM实验:从大卡车变身超跑

在LLaVA-13B模型上,SAINT一口气砍掉75%的token,结果性能损失不到1%,推理速度直接对齐LLaVA-7B!这相当于把一辆载重卡车改成了特斯拉,既省电又拉风!

对比不同LLM-only剪枝方法的性能
对比不同LLM-only剪枝方法的性能
LLaVA-13B+SAINT与原始模型的性能对比

更有趣的是,作者还尝试了混合剪枝模式(ViT+LLM双管齐下),结果发现既能保住性能,又能让推理速度飞起!

文本无关剪枝与VisionZip的性能对比
文本无关剪枝与VisionZip的性能对比
对比ViT-only和LLM-only剪枝的延迟与性能
对比ViT-only和LLM-only剪枝的延迟与性能

结论

SAINT就像给模型装上了“智能节能模式”,通过动态剪枝冗余token,让ViT和VLM在保持智商的同时跑出博尔特的速度!无论是图像分类还是多模态任务,SAINT都证明了自己是“很强”!


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值