Diffusion Models: A Comprehensive Survey of Methods and Applications
扩散概率模型最初受非平衡热力学启发,作为隐变量生成模型(latent variable generative model)而提出的。 首先是前向(forward,或者译为正向)的过程,通过在多个尺度上添加噪声来逐步扰乱数据分布;然后是反向的过程,去学习如何恢复数据结构[78, 186]。从这个角度看,扩散模型可以看作是一个层次很深的VAE(Variational Auto-Encoder),即上述的破坏和恢复过程分别对应于VAE中的编码和解码过程。
因此,许多研究都集中在对编码和解码过程进行学习,再加上变分下限的设计,来提高模型性能。或者,扩散模型的过程可以看作是随机微分方程 (SDE) [87, 195] 的离散化,其中前向和反向过程对应于前向SDE和反向 SDE。
除此之外,生成模型的一个核心问题是:对模型概率分布的灵活性和易处理性之间的平衡。 扩散模型的基本思想是,通过前向扩散过程系统地扰动数据分布中的结构,然后通过学习反向扩散过程来恢复结构,从而产生高度灵活和易于处理的生成模型,目前扩散模型中两种主要范式是去噪扩散概率模型(DDPM为主)和基于得分的生成模型(SDE为主)。
DDPM
去噪扩散概率模型 (DDPM) [78] Denoising Diffusion Probabilistic Model 由两个参数化的马尔可夫链组成,并使用变分推理在有限时间后生成与原始数据匹配的样本。 前向链通过使用预先设计的时间表逐渐添加高斯噪声来扰乱数据分布,直到数据分布收敛到给定的先验,即标准高斯分布。 反向链从给定的先验开始,使用参数化的高斯转换核,学习如何去逐步恢复未受干扰的数据结构。
SDE
DSM(Denoising Score Match)。基于得分的生成模型构建随机微分方程 (SDE) 以将数据分布以平滑的方式扰乱到已知的先验分布,并构建相应的逆时 SDE 以将先验分布转换回数据分布。
现今研究方向
采样加速增强的扩散模型
在求解扩散 SDE 时,减小离散化步长可以加快采样过程。 然而,这种方法会导致离散化出错,并对模型性能带来负面影响。 因此,人们已经开发了许多方法来优化离散化方案,同时通过求解随机微分方程或常微分方程 (ODE) 来减少采样steps,同时保持良好的样本质量
具有似然最大化增强的扩散模型
去噪扩散概率模型 (DDPM) [78] 中最有竞争力的是对数似然,并且最近有各种方法可以增强对数似然的最大化。 由于直接计算对数似然的难处理性,研究主要集中在设计和分析变分下界。 优化 VLB 的方法有三种:噪声调度优化、可学习反向方差和目标设计。
具有数据泛化增强的扩散模型
扩散模型假设数据支持欧几里得空间,即具有平面几何形状的流形。 而添加高斯噪声将不可避免地将数据转换为连续的状态空间。 各种研究都集中在解决这些限制上。 数据泛化有两种方法:特征空间统一(Feature Space Unification)和 数据依赖的转换核(Data-Dependent Transition Kernels),我们将详细讨论它们。
添加噪声次数
扩散模型的添加噪声的次数是一个超参数,具体的次数需要根据具体的应用和数据进行调整。在使用扩散模型时,需要先定义噪声的分布和强度,然后通过重复地将噪声添加到输入数据中来创建一系列噪声图像。这样可以增加训练数据的多样性,提高模型的鲁棒性。但是添加太多的噪声可能会影响模型的准确性,因此需要根据具体情况进行调整,找到一个合适的噪声次数。