去噪扩散模型是计算机视觉领域最近出现的一个新兴主题,在生成建模领域展示了显着的成果。扩散模型是一种基于两个阶段的深度生成模型,即前向扩散阶段和反向扩散阶段。在前向扩散阶段,通过添加高斯噪声在几个步骤中逐渐扰动输入数据。在反向阶段,模型的任务是通过学习逐步反向扩散过程来恢复原始输入数据。扩散模型因其生成样本的质量和多样性而受到广泛赞赏,尽管其计算负担已知,即由于采样过程中涉及大量步骤而导致速度较低。此篇综述对视觉中应用去噪扩散模型的文章进行了全面的回顾,包括该领域的理论和实践贡献。首先,论文确定并提出了 三种通用扩散建模框架,它们基于去噪扩散概率模型、噪声条件评分网络和随机微分方程。然后论文进一步讨论扩散模型 和其他深度生成模型之间的关系,包括变分自动编码器、生成对抗网络、基于能量的模型、自回归模型和归一化流。论文接着介绍了计算机视觉中应用的扩散模型的 多视角分类。最后,我们说明了扩散模型当前的局限性,并展望了未来研究的一些有趣方向。
1. Introduction
迄今为止,扩散模型已应用于各种生成建模任务,例如图像生成、图像超分辨率、图像修复、图像编辑、图像到图像翻译等。此外,通过扩散模型学习的潜在表示也被发现在判别任务中很有用,例如图像分割、分类和异常检测。扩散模型子类别至少有三个。第一个子类包括去噪扩散概率模型(DDPM),其灵感来自非平衡热力学理论。 DDPM 是使用潜在变量来估计概率分布的潜在变量模型。从这个角度来看,DDPM可以被视为一种特殊的变分自动编码器(VAE),其中前向扩散阶段对应于VAE内部的编码过程,而反向扩散阶段对应于解码过程。第二个子类以**噪声条件评分网络(NCSN)为代表,它基于通过评分匹配训练共享神经网络来估计扰动数据的评分函数(定义为对数密度的梯度)不同噪声水平下的分布。随机微分方程 (SDE)**代表了扩散模型的另一种方法,形成了扩散模型的第三个子类。通过正向和反向 SDE 进行扩散建模可以产生高效的生成策略以及强有力的理论结果 。后一种表述(基于 SDE)可以被视为对 DDPM 和 NCSN 的概括。论文确定了几种定义性的设计选择,并将它们合成为与上面介绍的三个子类别相对应的三个通用扩散建模框架。为了将通用扩散建模框架置于上下文中,论文进一步讨论扩散模型与其他深层生成模型之间的关系。更具体地说,论文描述了与变分自动编码器(VAE)、生成对抗网络(GAN)、基