标题:《High-Resolution Image Synthesis with Latent Diffusion Models》
出版源:CVPR 2022
论文领域:Image Synthesis
相关链接:[pdf] [arXiv] [github]
High-Resolution Image Synthesis with Latent Diffusion Models
1 Introduction
通过将图像形成过程分解为去噪自动编码器的连续应用,diffusion models(DMs)在图像数据上取得了最先进的合成结果。此外,他们的公式允许用于控制图像生成过程而不需要重新训练的导向机制。不过,由于这些模型通常直接在像素空间操作,优化强大的 DM 通常消耗数百个 GPU,并且由于连续评估,推论是昂贵的。为了使DM能够在有限的计算资源训练,同时保留其质量和灵活性,文中作者将其应用于强大的预训练自动编码器的潜在空间中。
2 Contributions
i. 对更高维度的数据进行了更优雅的扩展数据,因此可以(a)工作在提供更忠实和详细重建的压缩水平上,以及(b)能有效地应用于百万像素图像的高分辨率合成。
ii. 在显著降低计算复杂度的同时,能够在多个任务(无条件的图像合成、绘画、随机的超分辨率)和数据集上取得有竞争力的性能。
iii. 不需要对重建和生成能力进行微妙的加权。这确保了极其忠实的重建,并且对潜伏空间的正则化要求很低。
iv. 模型可以以卷积方式应用,并呈现出 102 4 2 1024^2 10242 px的大型一致图像。
v. 设计通用的基于cross-attention的条件机制。
3 Methods
本文认为后面perceptual部分十分耗费资源,因此,LDMs设计为一个有效的生成模型+轻微的感知压缩阶段,着重优化semantic部分。模型框架如图1。
3.1 Perceptual Image Compression
LDMs利用了一个自编码模型,它学习了一个感知上等同于图像空间的空间,但显著降低了计算复杂度。
给定RGB图像 x ∈ R H × W × 3 x \in R^{H \times W \times 3} x∈RH×W×3,利用一个encoder ε \varepsilon ε将 x x x编码成一个潜在特征 z = ε ( x ) z = \varepsilon(x) z=ε(x)。其下采因子为 f = 2 m , m ∈ N f=2^m, m \in N