文章提出了潜在扩散模型(LDMs),通过在预训练的自动编码器的潜在空间中应用扩散模型,显著降低了计算成本,同时保持了高分辨率图像合成的质量和灵活性,在多个图像合成任务中取得了先进的性能。
一、潜在扩散模型(LDMs)架构
潜在扩散模型(LDMs)结构主要由感知压缩模型、潜在扩散模型和条件生成机制三部分组成
1、感知压缩模型
由一个通过感知损失和基于 patch 的对抗目标相结合训练的自编码器构成。
(1)结构
(2)训练
2、潜在扩散模型
利用训练好的感知压缩模型得到低维潜在空间,将扩散模型应用于该空间。与高维像素空间相比,潜在空间更适合基于似然的生成模型,模型可专注于数据语义部分,训练效率更高。此时 LDM 的目标函数变为 ,模型的神经主干
由时间条件 UNet 实现。由于前向扩散过程固定,训练时可高效获取
,并通过解码器D将
的样本解码到图像空间。
3、条件生成机制
(1)条件扩散模型
论文通过交叉注意力机制(Cross-Attention)将条件输入融入扩散模型的 UNet 主干,具体分为以下步骤: