文生图
文章平均质量分 94
Toyag
It will be better!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
One-Prompt-One-Story:无须训练即可保持身份一致性
在长提示符中,身份信息是通过上下文理解隐式维护的,我们称之为语言模型的上下文一致性。例如:A dog is watching the movie. Afterward, the dog is lying in the garden.(我们可以知道在这一段话中,这只狗代表的是同一只狗,因为在同一段话出现)单提示生成设置下,文本嵌入空间中彼此之间的语义距离相对较小,而跨多提示生成设置的文本嵌入空间彼此之间的语义距离相对较大。原创 2025-02-17 17:24:24 · 1358 阅读 · 0 评论 -
Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models
所以考虑在不重新训练模型的情况下删除/替换交叉注意是很重要的。受DeepCache的启发,作者提出了一种有效且无需训练的方法,称为TGATE。原创 2024-05-06 10:14:55 · 1382 阅读 · 0 评论 -
SDXS:Real-Time One-Step Latent Diffusion Models with Image Conditions
在看这个文章之前,首先要对 consistency model ,score-based model要有一定了解,以及相应的知识蒸馏,怎样去做单步生成的等等扩散模型由于其迭代采样过程而导致显著的延迟。为了减轻这些限制,作者引入了一种双重方法,包括模型小型化和减少采样步骤,旨在显著降低模型延迟。还是利用知识蒸馏来简化U-Net和图像解码器架构,并引入了一种利用特征匹配和分数蒸馏的创新的单步DM训练技术。作者提出了两种模型,和。原创 2024-04-28 14:03:32 · 1300 阅读 · 1 评论 -
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
图文一致性的原因还是因为文本的 token 的激活注意值不高,导致文本的 token 无法激活图像的区域,从而导致图文不一致。作者将这种现象归因于扩散模型的训练方式对条件的利用不足,所以提出了 CoMat,是一种。原创 2024-04-25 17:57:37 · 1218 阅读 · 1 评论
分享