【研究生工作周报】(DDPM vs GAN)

《Diffusion Models Beat GANs on Image Synthesis》

1 Motivation

(1)GAN模型可以获得很高的生成质量,但是高质量是通过牺牲多样性实现的,并且GAN模型的设计需要精密的参数选择,否则很容易崩溃,这些缺点限制了GAN模型在下游任务的应用。

(2)目前对GAN模型架构上的研究非常丰富,有比较完善的实验探究结果。

(3)扩散模型已经被证明可以生成高质量的图像,并且相比于GAN能够更好地覆盖样本分布,但对扩散模型架构的研究相对较少,扩散模型仍有继续改进的潜力。

2 Contribution

(1)从GAN的实验中得到启发,对扩散模型进行大量的消融实验,找到了更好的架构。

(2)在ImageNet的生成任务中打败了最先进的BigGAN,在128×128的图像上FID达到2.97;在256×256的图像上FID达到4.59,在512×512的图像上FID达到7.72。同时,扩散模型比BigGAN更好地匹配了数据分布。

3 扩散模型介绍

扩散模型的思想是,对于数据分布x0∽q(x0)x_0 {\backsim} q(x_0)x0q(x0),前向构造t=1,2,...Tt={1,2,...T}t=1,2,...TTTT个不同时段(代表不同噪声等级)的先验加噪(高斯噪声)概率分布xt∽q(xt∣x0)x_t {\backsim} q(x_t|x_0)xtq(xtx0)。之后,从xTx_TxT开始,逐步反向预测前一个时刻的分布xt−1∽p(xt−1∣xt)x_{t-1} {\backsim} p(x_{t-1}|x_{t})xt1p(xt1xt),直到回溯到x0x_0x0,使得预测的分布p(x0)p(x_0)p(x0)与真实分布q(x0)q(x_0)q(x0)相近。整个时序具有马尔科夫链的性质。

3.1 前向分布构造
对于每一个时间步ttt,根据马尔可夫噪声过程,其分布可以表示为如下形式:
在这里插入图片描述

上述公式的含义可以理解为,ttt步图像由t−1t-1t1步的数据添加球面高斯噪声得到,βt\beta_tβ

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值