前言
生成模型主要分为两类方法,一种是基于GAN模型的生成方法,另外一种是基于对数似然模型,例如VAE、DDPM等。GAN方法在FID、Inception Score(IS)、Precision等指标上取得不错的效果,但是在生成图片的多样性上有所欠缺,而基于对数似然的方法在多样性上效果更好。另外,GAN的缺点很明显,训练困难;而对数似然模型的缺点就是生成速度慢,并且在生成质量上不如GAN。于是,论文提出生产样本的多样性和质量是一个值得权衡的问题。所以,论文希望改善DDPM这种基于对数似然的生成方法,通过分类器引导来减少样本多样性而改善生成图像的质量,使得其在FID等指标上达到GAN的效果。
创新点有三个:①通过消融实验改进了DDPM的模型结构;②提出了一种分类器引导的方法来改善扩散模型的生成质量;③发现可以调整单个超参数,即分类器梯度的比例,以牺牲多样性来换取保真度。
以往DDPM改进方法
论文先介绍了之前的improve DDPM和DDIM工作,是在这个之上进行改进的。对于improved DDPM,主要是提出了可学习的方差和新的混合损失函数,作者也同意这个改进是有效的。至于DDIM,作者认为只有当使用少于50个采样步骤才是有效的。
其次,论文用Precision和IS作为衡量保真度的指标,用Recall去衡量多样性。
Architecture Improvements
主要做了如下改动:
①增加模型的深度和宽度,使得模型大小保持相对恒定。
②增加了注意力机制的heads
③使用32×32、16×16和8×8的分辨率进行注意力计算
④使用BigGAN的残差模块进行上采样和下采样