AAAI 2025 | 免训练低成本!上海交大提出用于高效扩散模型的令牌剪枝方法

86e4300b34794cc0f07762808b9bdc95.gif

本篇分享 AAAI 2025 论文 SiTo: Training-Free and Hardware-Friendly Acceleration for Diffusion Models via Similarity-based Token Pruning,上海交通大学提出 SiTo,通过基于相似性的令牌剪枝为扩散模型提供无需训练且硬件友好的加速。

6fea500ad233fafd8d7063ce55bb84ea.png

5e072af9ce41a3c270dd0c87e0cab030.png

论文链接:

https://www.researchgate.net/publication/387204421_Training-Free_and_Hardware-Friendly_Acceleration_for_Diffusion_Models_via_Similarity-based_Token_Pruning

项目链接:

https://github.com/EvelynZhang-epiclab/SiTo

d0d53deac81690415219fba4e4c4d1bd.png

介绍

1.1 SiTo:加速扩散模型的创新解决方案

先前的研究者们通常通过减少采样步数或压缩去噪网络等方式来降低扩散模型的计算开销。然而,这些方法往往在一定程度上牺牲了生成质量。SiTo 提出了一种全新的思路,它通过引入基础令牌(Base Token)概念,自适应地剪去冗余的令牌,从而在保证高质量生成结果的同时实现显著加速。

1.2 SiTo 的三大核心创新

(I)最大相似性:基础令牌与所有其他令牌具有最高相似性,剪枝令牌则选择与基础令牌相似度最高的令牌,从而最小化恢复误差。

(II)均匀空间分布:基础令牌在图像的不同局部区域均匀分布,相邻令牌的相似性较高,用空间相邻的令牌恢复剪枝令牌更为合适,避免了误差集中。

(III)带有随机性的选择:为避免相邻时间步中令牌的重复剪枝,加入高斯噪声使基础令牌选择带有随机性,减少了剪去相同令牌的比例,从而有效避免了不平衡剪枝导致的质量下降。

如下图(b)所示,由于剪枝令牌是通过直接复制其最相似的基础令牌来恢复的,这些剪枝令牌往往会在所有后续的去噪步骤中保持较高的相似性,因此它们很可能在几乎所有的时间步中都被剪枝。这种极度不平衡的令牌剪枝可能会导致生成质量的显著下降。

为了解决这个问题,提出在不同令牌的相似度上添加高斯噪声,在基础令牌选择过程中引入随机性。如下图(a)所示,这种方法将相邻两个时间步中剪去相同令牌的比例从 97% 降低到 72%,有效避免了不平衡剪枝问题。

6fc4f1cf67febc50580e0c569ce3c535.png

1.3 SiTo 的显著优势

  1. 无损加速,内存压缩

SiTo 的应用效果显著,尤其在 COCO30K 和 ImageNet 数据集上,展示了强大的加速效果和内存压缩能力。例如,在 Stable Diffusion v1.5 中,应用 SiTo 方法后,加速达 1.9 倍,同时实现了 2.7 倍的内存压缩,并且 FID 值降低了 1.33,不仅加速了推理过程,还提升了生成质量。

  1. 硬件友好,低计算开销

SiTo 操作低成本、低内存占用,适合在 GPU 等硬件平台上并行计算,特别适用于边缘设备和实时应用。

  1. 训练无关,数据无依赖

SiTo 不依赖训练或校准数据,免去额外训练步骤,具有极强的通用性和即插即用性,可广泛应用于不同数据集、模型和采样设置。

8275f8ab9be90c394a987107548bc4b1.png

方法

59eb18e8828026f53a782ff61e03aa54.png

SiTo 的方法流程

  1. 基础令牌选择:

计算所有令牌之间的余弦相似度。对于每个令牌,将它与所有其他令牌的相似度求和,得到该令牌的相似度得分(SimScore)。接着,向相似度得分中添加高斯噪声,以引入随机性,防止在不同时间步中选择相同的基础令牌和剪枝令牌。最后,选择在图像区域中具有最高噪声相似度得分(Noise SimScore)的令牌作为基础令牌。

  1. 剪枝令牌选择:

选择与基础令牌最相似的令牌作为剪枝令牌。

  1. 剪枝令牌恢复:

将未剪枝的令牌输入到神经网络层,然后通过从最相似的基础令牌中复制来恢复剪枝令牌。

69a5bed9cbbdad02323e4789fd2593b1.png

结果

视觉效果:SiTo 保留更多的图像细节,更加对齐文本提示,以及和原始模型生成的结果更吻合。

bdc42b3c8101af4166fea81ee8f6407f.png

数值结果:在 ImageNet 和 COCO30K 数据集上的结果。

5b7d6f6a2828be4138711e4394bfbaaa.png

7868fb76f8a8f2d3de255999547348f0.png

消融

4.1 剪枝令牌选择方法的消融实验

对以下六种基础令牌选择方法进行了消融实验:

  1. 始终选择 2x2 图块中的左上角令牌

  2. 在全局范围内随机选择 25% 的令牌

  3. 在全局范围内选择具有最高 SimScore 的令牌

  4. 在 2x2 图块中随机选择一个令牌

  5. 在 2x2 图块中选择具有最高 SimScore 的令牌

  6. 向 SimScore 添加高斯噪声后,选择 2x2 图块中具有最高得分的令牌

如下表所示,实验得出了两个关键结论:

03a85095a099651baa9d48de930f6218.png

  1. 时间分布均匀性

基础令牌应该在不同的去噪时间步之间保持均匀分布。策略 I,即每个时间步始终选择相同的令牌,表现最差。策略 VI 优于策略 V,因为在策略 VI 中引入的随机噪声使得不同时间步的基础令牌选择有所变化。类似的推理解释了为什么策略 II 优于策略 III。

此外,还对策略 V 和策略 VI 进行了视觉分析。如下图 a 所示,引入噪声可以防止某些令牌在多个时间步中被反复剪枝,从而使得图像呈现出更丰富的细节。

3c887e5fd39fd3b4b4c6cc7d9c82bc38.png

  1. 空间分布均匀性

基础令牌还应保持空间上的均匀分布。策略 IV、策略 V 和策略 VI 的表现优于策略 II 和策略 III,这表明在局部图块内选择基础令牌要比全局选择效果更好。

4.2 剪枝 vs. 合并

为了验证的剪枝操作,将剪枝操作替换为类似于 ToMeSD 的平均合并策略。如图 5a 所示,剪枝操作始终能够获得更低的 FID 得分。

4.3 不同图块大小的影响

如图 5b 所示,尽管较大的图块大小仅能带来微小的加速提升,但它们会导致 FID 值的显著增加。

d7446b8e7e0acec2711fb9834bf2a0a3.png

4.4 使用较少采样时间步的性能评估

SiTo 在不同的时间步数下,始终在图像质量和加速效果上超过 ToMeSD,这表明 SiTo 与 DDIM 等扩散加速方法是正交的。

90b589dc157e80e2a81c3cb5f8f213c7.png

4.5 SiTo 在各模块中的应用

SiTo 可以应用于所有模块,包括自注意力(Self-Attention,SA)、交叉注意力(Cross-Attention,CA)和前馈网络(Feed-Forward Network,FFN)。下表的结果显示,将 SiTo 应用于 CA 和前馈网络 FFN 仅带来了很小的加速收益,同时影响了图像生成质量。

db99807a3f632a9eb80b2ef674b3c9ef.png

此外,尽管 SiTo 和 ToMeSD 可以应用于更深的 UNet 块,下图显示,应用这些方法会导致生成质量的下降。

f74745f839d7d6d9226797f834b11e61.png

bc2187a7deb737ee669eead40c389eaf.png

总结

SiTo,一种用于高效扩散模型的令牌剪枝方法,旨在通过基于相似性的选择来减少剪枝误差。SiTo 不需要训练,硬件友好,不仅能显著降低内存和计算成本,还能提高生成质量。

它能够无缝地集成到现有的工作流程中,具有很好的跨模型和数据集的适应性,同时揭示了预训练扩散模型中的冗余,为更高效的模型设计提供了新的思路。

更多阅读

c386019c695b26da3e62a19b03301492.png

644e4a0191381920d0a7b2c0689e88f3.png

54813db64e4d2d44c4ed9af916ae8b3c.png

a89d7aef6cca1c9de34def3e9e57c517.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

062d4d354cb918e4ce1496e64f66ce0e.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

c418f4c546af5ee7ce40b99cecce5ace.jpeg

### 关于2025AAAI大会的大语言模型通信相关内容 目前尚未有具体公开的论文或会议记录表明2025年的AAAI大会已经发生或者其具体内容已被披露。然而,基于近年来的研究趋势以及大型语言模型(LLMs)的发展方向,可以推测未来研究可能聚焦以下几个方面: #### 大型语言模型中的通信机制改进 随着前缀调优技术的应用和发展[^2],研究人员可能会进一步探索如何优化连续提示以提高生成质量并减少计算成本。这种技术允许通过调整少量参数来控制大规模预训练模型的行为,从而实现更高效的跨模态或多任务学习。 #### 集成感知与通讯的新范式 类似于Wi-Fi环境下的传感和通信融合工作[^3],未来的LLM也可能朝着更加智能化的方向发展——即不仅限于文本处理,还能够结合其他形式的数据流进行实时交互。这将促进不同设备间高效的信息交换,并支持更为复杂的场景应用如物联网(IoT)服务等。 #### 自然涌现的语言特性分析 此前有关多代理群体中地面组合性语言出现现象的研究成果显示出了有趣的可能性[^4]。预计到2025年,在更大规模网络环境下模拟人类交流过程将成为热点之一;特别是当这些虚拟角色具备一定自主决策能力时,它们之间形成的新型沟通协议值得深入探讨。 以下是Python代码片段展示了一个简单的类定义用于表示基本的消息传递对象: ```python class Message: def __init__(self, sender_id, receiver_id, content): self.sender_id = sender_id self.receiver_id = receiver_id self.content = content def send(self): print(f"Message from {self.sender_id} to {self.receiver_id}: {self.content}") msg = Message(1, 2, "Hello!") msg.send() ``` 尽管当前无法确切知道AAAI 2025的具体议题安排情况,但从现有资料可以看出,围绕着提升效率、增强适应性和挖掘潜在规律等方面展开讨论将是不可避的趋势。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值