免训练的VLM剪枝方法！砍75% Token，仅牺牲0.6%效果，速度飙升

最新推荐文章于 2025-06-03 14:34:49 发布

zenRRan

最新推荐文章于 2025-06-03 14:34:49 发布

阅读量610

点赞数 3

文章标签：剪枝算法机器学习人工智能数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_27590277/article/details/146357528

版权

这篇论文简直是视觉语言模型（VLM）的“瘦身教练”(咳咳就是不需锻炼就能瘦爽~)！大家都知道，ViT和VLM这类模型虽然强悍，但它们的计算量却像吃自助餐一样疯狂——自注意力机制的二次方复杂度，让显卡分分钟想罢工！于是，作者团队祭出了SAINT这个“训练免费”的剪枝神器，通过动态分析token的相似性，像精准的园丁一样修剪冗余部分，让模型跑得飞快还不掉性能！

论文：Similarity-Aware Token Pruning: Your VLM but Faster
链接：https://arxiv.org/abs/2503.11549v1
项目：https://github.com/ArmenJeddi/saint

方法

SAINT的核心思路可以概括为：用图论玩消消乐！它把每个token当作图中的节点，计算它们之间的余弦相似度，构建一个“谁和谁长得像”的关系网。接着，SAINT像侦探一样，通过节点度数（邻居数量）和相似度分数，揪出那些“混日子”的冗余token，然后无情踢出群聊！

SAINT的流程图

SAINT的流程图

整个过程分三步走：

二分图构建：把token分成两队（src和dst），计算两队之间的相似度，像相亲大会一样匹配“灵魂伴侣”。
动态投票：根据相似度阈值（τ）和邻居数量（K），让模型自己决定“这层该剪多少头发”。
冗余排名：给每个token打“无聊分”，分数高的直接淘汰，只留下最独特的仔继续干活！

实验

为了证明SAINT不是花架子，作者们祭出了一系列“魔鬼测试”：

ViT实验：涡轮加速，性能稳如狗

在ImageNet-1K上，SAINT给ViT-H/14模型装上了“氮气加速”——吞吐量翻倍，准确率仅掉0.6%！对比其他方法（比如ToMe和PPT），SAINT像学霸一样轻松碾压，准确率高出0.8%！

ViT模型在不同剪枝方法下的准确率-吞吐量曲线

ViT模型在不同剪枝方法下的准确率-吞吐量曲线

VLM实验：从大卡车变身超跑

在LLaVA-13B模型上，SAINT一口气砍掉75%的token，结果性能损失不到1%，推理速度直接对齐LLaVA-7B！这相当于把一辆载重卡车改成了特斯拉，既省电又拉风！

对比不同LLM-only剪枝方法的性能

对比不同LLM-only剪枝方法的性能

LLaVA-13B+SAINT与原始模型的性能对比

更有趣的是，作者还尝试了混合剪枝模式（ViT+LLM双管齐下），结果发现既能保住性能，又能让推理速度飞起！

文本无关剪枝与VisionZip的性能对比

文本无关剪枝与VisionZip的性能对比

对比ViT-only和LLM-only剪枝的延迟与性能

对比ViT-only和LLM-only剪枝的延迟与性能

结论

SAINT就像给模型装上了“智能节能模式”，通过动态剪枝冗余token，让ViT和VLM在保持智商的同时跑出博尔特的速度！无论是图像分类还是多模态任务，SAINT都证明了自己是“很强”！

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。