论文名称:High-Resolution Image Synthesis with Latent Diffusion Models
论文地址:arxiv.org/pdf/2112.10752v2
项目地址:GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model
潜在扩散模型(LDMs)通过在预训练的自动编码器的潜在空间中应用扩散模型,实现了高分辨率图像合成。这种方法的关键是在像素空间和潜在空间之间找到一个平衡点,既能减少计算复杂性,又能保留足够的细节信息。
核心思想
-
分解图像形成过程:将图像形成过程分解为去噪自编码器的顺序应用,这种分解允许在不重新训练的情况下通过引导机制控制图像生成过程。
-
潜在空间的应用:在强大的预训练自动编码器的潜在空间中应用扩散模型,这允许在降低计算复杂性的同时,保持图像质量。
-
跨注意力层:通过引入跨注意力层,将扩散模型转变为能够处理一般条件输入(如文本或边界框)的强大且灵活的生成器。

最低0.47元/天 解锁文章
952

被折叠的 条评论
为什么被折叠?



