【扩散模型第1篇】扩散概率模型DPM和去噪扩散概率模型DDPM

最新推荐文章于 2025-10-26 21:22:07 发布

原创

最新推荐文章于 2025-10-26 21:22:07 发布 · 2k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

本文主要介绍了扩散概率模型相关知识。扩散模型可看作多层VAE，前向和反向过程遵循马尔可夫过程。文中阐述了前向和反向过程、优化目标ELBO及采样过程，还介绍了去噪扩散概率模型DDPM，包括其训练和采样过程，最后提及基于分数解释DDPM、三种等价表示及改进方法。

参考阅读：
[1] 张振虎博客

进食顺序如下

1 马尔可夫分层概率模型
2 扩散概率模型
3 去噪扩散概率模型DDPM
4 基于分数解释DDPM
5 扩散模型的三种等价表示
6 改进 DDPM

PS.内容基本上是参考博客的内容，以下内容本人复习用

1 马尔可夫分层概率模型

在这里插入图片描述
扩散模型可以看作是多层的VAE，既编码和解码过程分别重复了 $T$ 次。但无论是前向过程还是反向过程，都遵循马尔可夫过程(Markov chain)：当前时刻 $t$ 仅与其上一时刻相关。

和VAE类似，其对数似然可以写成如下式子，利用詹森不等式可以求出其ELBO：
$\begin{aligned} log p(x) &= log\int p(x,z_{1:T})dz_{1:T}\\ &= log\int \frac{p(x,z_{1:T}q_\phi(z_{1:T}|x)}{q_\phi(z_{1:T}|x)}dz_{1:T}\\ &= log E_{q_\phi(z_{1:T}|x)}[ \frac{p(x,z_{1:T})}{q_\phi(z_{1:T}|x)}]\\ &\ge E_{q_\phi(z_{1:T}|x)}[ \frac{p(x,z_{1:T})}{q_\phi(z_{1:T}|x)}] \end{aligned}$

2 扩散概率模型

在这里插入图片描述
在以上基础上，进行微调便可得到扩散模型：

不再区分 $x$ 和 $z$ ，且尺寸保持不变(VAE中 $z$ 一般小于 $x$ )
前向过程不再需要学习，既 $q(x_t|x_{t-1})$ 固定为一个线性高斯变换，不再使用参数化的模型去拟合。
结合线性高斯变换和马尔科夫链的特性，理论上 $T\rightarrow \infty$ 时， $x_T$ 是一个正态分布，既其收敛到 $N (0, I)$

2.1 前向和反向过程

由上图可知，整个网络可以用前向过程 $q$ 或者反向过程 $p$ 表示，既联合概率可以表示为
$p(x_{0:T})=q(x_0)\prod_{t=1}^Tq(x_t|x_{t-1})=p(x_T)\prod_{t=1}^Tp(x_{t-1}|x_t)$
前向过程又叫扩散过程，是在前进过程中不断增加微小的标准高斯噪声，当 $T$ 很大时，原图趋近于标准高斯噪声；反向过程又叫采样过程，它可以从纯粹的标准高斯噪声随机变量逐渐转变为真实图片。

前向过程

定义
$q(x_t|x_{t-1}) = N(x_{t}; \sqrt{1-\beta_t}x_{t-1},\beta_t I)$
定义这个概率分布为线性高斯变换，是指 $x_t$ 的均值和 $x_{t-1}$ 的值呈线性关系，也就是
$x_t = \sqrt{1-\beta_t}x_{t-1}+\sqrt{\beta_t}\epsilon\space,\epsilon\sim N(0,1)$
且 $\beta$ 满足， $t_1>t_2>...>t_T$ 时，有 $\beta_1<\beta_2<...<\beta_T$ ，且 $\beta\in[0,1]$ 。也可以令 $\alpha_t=1-\beta_t$ ，则 $\alpha_t$ 是单调递减的。则此时式子变成：
$x_t = \sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}\epsilon$