扩散模型（Diffusion Model）的简单理解

最新推荐文章于 2025-09-18 08:45:00 发布

原创最新推荐文章于 2025-09-18 08:45:00 发布 · 2.6k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #神经网络

本文介绍了生成扩散模型，特别是DDPM，如何在2020年凭借其在图像合成中的优势超越GAN。文中对比了GAN和扩散模型的优缺点，强调了扩散模型的稳定性和可控性，以及其在深度学习中的应用，如信号传播和分布建模。

介绍

如今生成扩散模型的大火,则是始于2020年所提出的 DDPM(Denoising Diffusion Probabilistic Model),仅在 2020 年发布的开创性论文 DDPM 就向世界展示了扩散模型的能力，在图像合成方面已经全面击败了GAN，所以讲扩散模型运用到计算机视觉领域的其他方面也是当下的焦点。

Diffusion Model 与 GAN的简单对比

1.GAN网络也叫生成对抗性网络，是一种基于深度学习的生成模型，采用有监督的学习方法，使用两个训练模型:生成新数据的生成器模型和鉴别事物是否真实的鉴别器模型。两个子模型相互竞争训练，直到鉴别器无法判断生成器生成的样本与真实样本的偏差，也就意味着生成器模型生成了一个非常逼真的样本。GAN的网络结构如下图所示：
Alt

2.扩散模型是用于生成与训练数据相似的数据。同样是采用有监督的学习方法，通过连续添加高斯噪声来破坏训练数据，然后通过反转这个噪声去学习恢复数据。主要分为前向加噪和后向去噪两个过程。在前向过程中将每个时刻引入的随机高斯噪声进行标记作为真实标签，反向去噪过程中用预测的噪声和真实噪声建立损失函数关系进行训练从而达到恢复数据的目的。Diffusion Model的网络结构如下图所示：

Alt

3.两者对比：
(1）GAN网络要训练生成器和判别器两个网络，难度较大，而且不容易收敛。在生成和对抗的竞争关系中，每个模型都可以压倒另一个：如果鉴别器太好，它将返回非常接近0或1的值，造成生成器难以获得更新的梯度；如生成器太好，它就会抓住鉴别器的弱点，生成欺骗鉴别器的样本，造成生成的图像质量不高，多样性差。

(2）相较于 GAN，扩散模型具有更好的稳定性和可控性，并且可以通过最小化凸回归损失来有效解决鞍点问题，并且在Open AI 发布的DALLE2模型中已经成功代替了GAN网络。

Diffusion Model的工作原理

（1）Forward:前向过程连续添加高斯噪声，求得某时刻的分布，具体过程如下图所示：
在这里插入图片描述
（2）Reverse:后向去噪过程来恢复数据，通俗点讲就是根据某一时刻的分布来恢复原始输入，具体过程如下图所示：

（3）整个过程分为训练和采样两个阶段，训练过程就是学习每一步加入的高斯噪声，采样过程就是推断过程，给定某一时刻的全噪声图片，从t = T开始逐步去噪，最终生成初始图像。
在这里插入图片描述

总结

在深度学习中，扩散模型可以用来建模图像、视频、语音等信号的分布和演化过程。扩散模型的具体方法包括扩散过程、逆扩散过程和损失函数。扩散过程描述了信息在空间中传播和分布的过程，逆扩散过程描述了信息从终点向初始点的传播和分布的过程。损失函数用来衡量扩散模型的预测结果与真实结果之间的差异。总结来说，扩散模型可以帮助我们理解和预测信号在空间中的传播和分布过程。