论文笔记:High-Resolution Image Synthesis with Latent Diffusion Models

文章提出了潜在扩散模型(LDMs),通过在预训练的自动编码器的潜在空间中应用扩散模型,显著降低了计算成本,同时保持了高分辨率图像合成的质量和灵活性,在多个图像合成任务中取得了先进的性能。

一、潜在扩散模型(LDMs)架构

潜在扩散模型(LDMs)结构主要由感知压缩模型、潜在扩散模型和条件生成机制三部分组成

1、感知压缩模型

由一个通过感知损失和基于 patch 的对抗目标相结合训练的自编码器构成。

(1)结构

(2)训练

2、潜在扩散模型

利用训练好的感知压缩模型得到低维潜在空间,将扩散模型应用于该空间。与高维像素空间相比,潜在空间更适合基于似然的生成模型,模型可专注于数据语义部分,训练效率更高。此时 LDM 的目标函数变为L_{LDM}:=\mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t}\left[\left\| \epsilon-\epsilon_{\theta}\left(z_{t}, t\right)\right\| _{2}^{2}\right] ,模型的神经主干\epsilon_{\theta}(0, t)由时间条件 UNet 实现。由于前向扩散过程固定,训练时可高效获取z_{t} ,并通过解码器D将p(z)的样本解码到图像空间。

3、条件生成机制

(1)条件扩散模型

论文通过交叉注意力机制(Cross-Attention)将条件输入融入扩散模型的 UNet 主干,具体分为以下步骤:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值