High-Resolution Image Synthesis with Latent Diffusion Models
Paper : https://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html
Github : https://github.com/CompVis/latent-diffusion
Overview
Pipeline:

objective

这篇文章的重点就在于,为什么从pexel space到latent space是可行的——在保证减少计算成本的前提下保留了大部分扩散模型的功能,在下一节Motivation会给出解释。
论文提出的模型其实相较于一般的扩散模型没有很大区别,采用模块化设计,可以看作在原始的扩散模型输入和输出地方加了编码、解码;在预测噪声的U-Net输入前也加入了一个domain specific encoder做为对条件输入的编码,其实在实验里提到:对于以对齐的图

本文介绍了一种利用潜变量扩散模型(LDM)进行高效高分辨率图像合成的方法。该方法通过自编码器预先压缩图像,减少计算成本的同时保留扩散模型的强大编辑能力。实验表明,在合适的下采样因子下,LDM能显著提升图像合成质量。
最低0.47元/天 解锁文章
5408





