《Diffusion Models Beat GANs on Image Synthesis》
1 Motivation
(1)GAN模型可以获得很高的生成质量,但是高质量是通过牺牲多样性实现的,并且GAN模型的设计需要精密的参数选择,否则很容易崩溃,这些缺点限制了GAN模型在下游任务的应用。
(2)目前对GAN模型架构上的研究非常丰富,有比较完善的实验探究结果。
(3)扩散模型已经被证明可以生成高质量的图像,并且相比于GAN能够更好地覆盖样本分布,但对扩散模型架构的研究相对较少,扩散模型仍有继续改进的潜力。
2 Contribution
(1)从GAN的实验中得到启发,对扩散模型进行大量的消融实验,找到了更好的架构。
(2)在ImageNet的生成任务中打败了最先进的BigGAN,在128×128的图像上FID达到2.97;在256×256的图像上FID达到4.59,在512×512的图像上FID达到7.72。同时,扩散模型比BigGAN更好地匹配了数据分布。
3 扩散模型介绍
扩散模型的思想是,对于数据分布x0∽q(x0)x_0 {\backsim} q(x_0)x0∽q(x0),前向构造t=1,2,...Tt={1,2,...T}t=1,2,...T共TTT个不同时段(代表不同噪声等级)的先验加噪(高斯噪声)概率分布xt∽q(xt∣x0)x_t {\backsim} q(x_t|x_0)xt∽q(xt∣x0)。之后,从xTx_TxT开始,逐步反向预测前一个时刻的分布xt−1∽p(xt−1∣xt)x_{t-1} {\backsim} p(x_{t-1}|x_{t})xt−1∽p(xt−1∣xt),直到回溯到x0x_0x0,使得预测的分布p(x0)p(x_0)p(x0)与真实分布q(x0)q(x_0)q(x0)相近。整个时序具有马尔科夫链的性质。
3.1 前向分布构造
对于每一个时间步ttt,根据马尔可夫噪声过程,其分布可以表示为如下形式:

上述公式的含义可以理解为,ttt步图像由t−1t-1t−1步的数据添加球面高斯噪声得到,βt\beta_tβ

最低0.47元/天 解锁文章
1388

被折叠的 条评论
为什么被折叠?



