Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models

Toyag

已于 2024-05-08 09:51:22 修改

阅读量1.2k

点赞数 19

分类专栏：论文 AIGC 文生图文章标签：人工智能 AIGC

于 2024-05-06 10:14:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/LT_admin/article/details/138484621

版权

Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models

本研究探讨了文本条件扩散模型中交叉注意在推理过程中的作用。我们发现 交叉注意输出经过几个推理步骤后会收敛到一个固定点 。收敛的时间点自然将整个推理过程分为两个阶段:

初始语义规划阶段: 在此阶段，模型依赖于交叉关注规划面向文本的视觉语义，以及随后的
保真度改进阶: 在此阶段，模型尝试从先前规划的语义生成图像。

作者发现在保真度改进阶段忽略文本条件不仅降低了计算复杂度，而且保持了模型的性能。这产生了一种简单且无需训练的方法，称为TGATE，用于高效生成，它在交叉注意力输出收敛时缓存它，并在剩余的推理步骤中保持固定。我们对MS-COCO验证集的实证研究证实了其有效性。

1. Introduction

一些研究强调了交叉注意对空间控制的重要性(Prompt-to-Prompt, Atten-and-Excite, Boxdiff)，但很少(如果有的话)从去噪过程中的时间角度研究其作用。

在这里，我们提出了一个新的问题:“在文本到图像扩散模型的推理过程中，交叉注意力对每一步都是必要的吗?”

为此，我们研究了在每个推理步骤中交叉关注对生成图像质量的影响。我们的发现突出了两个反直觉的观点:

在最初的几个步骤中，交叉注意输出收敛到一个固定点。（收敛时间点将扩散模型去噪过程分为两个阶段:）
- 初始阶段，模型依靠交叉注意规划面向文本的视觉语义, 我们将其表示为 语义规划阶段
- 后续阶段，模型学习从先前的语义规划中生成图像，我们称之为保真度提升阶段。
交叉注意在保真度提高阶段是多余的。
- 在语义规划阶段，交叉注意对产生有意义的语义起着至关重要的作用。然而，在后期阶段，交叉注意收敛，对生成过程的影响较小。
- 事实上，在保真度提高阶段绕过交叉注意可以在保持图像生成质量的同时潜在地减少计算成本。

因为交叉注意中的缩放点积是一个二次复杂度的运算。随着现代模型中分辨率和令牌长度的不断增加，交叉注意不可避免地会导致昂贵的计算，成为移动设备等应用程序的重要延迟来源。

这一发现促使我们重新评估交叉注意的作用，并启发我们设计一种简单、有效、无需训练的方法，即暂时控制交叉注意(temporally gating the cross-attention (TGATE))，以提高效率并保持现成扩散模型的生成质量。

💡 需要注意的是：

TGATE不会导致性能下降，**因为交叉注意的结果是聚合和冗余的。**事实上，观察到在基线上的初始化距离(FID)略有改善。

TGATE可以在每张图像上减少65T多次累积操作(Multiple-Accumulate Operations，MACs)，并在保真度提高阶段减小0.5B个参数，与基线模型(SDXL)相比，在没有训练成本的情况下，延迟减少了约50%。

2. Temporal Analysis of Cross-Attention

2.1 Cross-Attention.

UNet 中的交叉注意数学定义如下：

$\mathbf{C}_c^t=\text{Softmax}(\frac{Q_z^t\cdot K_c}{\sqrt{d}})\cdot V_c$

其中， $Q_z^t$ 是 $z_t$ 的投影， $K_c$ 和 $V_c$

最低0.47元/天解锁文章

博客等级

码龄7年

21
原创

263
点赞

341
收藏

187
粉丝

关注

私信

热门文章

分类专栏

最新评论

Vscode自定义Markdown粘贴图片的位置
越过山丘: 太感谢了，搞半天
Vscode自定义Markdown粘贴图片的位置
lllong33: 参考 https://github.com/microsoft/vscode/issues/114319
SDXS：Real-Time One-Step Latent Diffusion Models with Image Conditions
优快云-Ada助手: 恭喜您在博客领域中持续创作，第16篇博客《SDXS：Real-Time One-Step Latent Diffusion Models with Image Conditions》标题听起来非常专业和引人注目。希望您能继续保持创作的热情和努力，不断探索新的研究方向和内容。或许下一步可以尝试探讨一些与该主题相关的实际案例或应用场景，以便更深入地理解和展示您的研究成果。期待您更多精彩的博客作品！祝您一切顺利！
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
优快云-Ada助手: 恭喜您发布了第15篇博客，“CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching”！这篇博客内容看起来非常专业和引人入胜。我认为您在探讨文本和图像之间的关联方面做出了很大的努力和贡献。希望您能继续保持创作的热情和努力，为我们带来更多有价值的内容。我建议您在下一篇博客中可以探讨一下如何进一步优化模型的性能，或者分享一些实际应用中的案例研究。期待您的下一篇作品！
Vscode自定义Markdown粘贴图片的位置
Toyag: 这个看需求吧，文档改了，里面的图片引用是不会变的，也就是说你不该 asset 下的名字，就不会失效。这个本地主要还是作为日后的备份，方便组织管理

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。