【理论推导】扩散模型 Diffusion Model

slothfulxtx

已于 2023-04-07 16:33:23 修改

阅读量730

点赞数 1

CC 4.0 BY-SA版权

分类专栏：生成模型文章标签：机器学习

于 2023-03-30 17:49:01 首次发布

本文链接：https://blog.youkuaiyun.com/fnoi2014xtx/article/details/129853364

生成模型专栏收录该内容

5 篇文章

订阅专栏

文章介绍了变分自编码器（VAE）的概念，包括其基本的推导和多层VAE的扩展，然后转向扩散模型（如DDPM），详细阐述了扩散过程和逆扩散过程，以及在采样过程中的数学推导。通过这些模型，可以理解如何从高噪声状态逐步恢复原始数据分布。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

VAE 与多层 VAE

回顾之前的文章【理论推导】变分自动编码器 Variational AutoEncoder(VAE)，有结论
$\log p(x) = \mathbb E_{z\sim q(z|x)}[\log \frac{p(x,z)}{q(z|x)}] + \text{KL}(q||p) \geq \mathbb E_{z\sim q(z|x)}[\log \frac{p(x,z)}{q(z|x)}]$
该不等式的另一种推导方式如下所示
$\log p(x) = \log \mathbb E_{z\sim q(z|x)}[\frac{p(x,z)}{q(z|x)}] \geq \mathbb E_{z\sim q(z|x)}[\log \frac{p(x,z)}{q(z|x)}]$
其中不等号由 Jensen 不等式给出

将单层 VAE 扩展到多层 VAE，如下所示
在这里插入图片描述
$\begin{align} \log p(x) &= \log \int_{z_1}\int_{z_2} p(x, z_1,z_2) dz_1dz_2 \nonumber \\&= \log \int_{z_1}\int_{z_2} q(z_1, z_2|x) \frac{p(x, z_1,z_2)}{q(z_1, z_2|x)} dz_1dz_2 \nonumber \\&=\log \mathbb E_{z_1,z_2\sim q(z_1,z_2|x)}[ \frac{p(x, z_1,z_2)}{q(z_1, z_2|x)}] \nonumber \\&\geq \mathbb E_{z_1,z_2\sim q(z_1,z_2|x)}[ \log \frac{p(x, z_1,z_2)}{q(z_1, z_2|x)}] \nonumber \\&\overset{(i)}{=} \mathbb E_{z_1,z_2\sim q(z_1,z_2|x)}[ \log \frac{p(x|z_1)p(z_1|z_2)p(z_2)}{q(z_1|x)q(z_2|z_1)}] \nonumber \end{align}$
其中 (i) 处要求变量之间满足Markov假设，如果我们将多层 VAE 扩展到更多层，可以得到与扩散模型相近的图示形式，因此我们可以借助VAE相关的技巧来看待扩散模型

DDPM

在这里插入图片描述
扩散模型是通过向图像多次施加噪声来将图像转化为噪声，该过程称为前向扩散过程 (forward diffusion process)，而从某个先验噪声分布中采样一个噪声图作为初值，通过不断去噪来生成图像的过程称为是扩散的逆过程，可以类比于使用 Langevin Dynamics 进行图像生成的思路。

扩散过程

假定 $x_0\sim q(x)$ 是采样自真实数据分布 $q$ 的样本，我们向其添加 $T$ 步的高斯噪声，公式如下
$q(x_t|x_{t-1}) = \mathcal N(x_t; \sqrt{1-\beta_t}x_{t-1},\beta_t I)$
其中 $\beta_t \in [0,1]$ ，整个过程服从Markov假设，因此有 $q(x_{1:T}|x_0) = \prod_{t=1}^T q(x_t|x_{t-1})$ ，当 $T\rightarrow \infty$ ， $x_T$ 服从高斯分布

如果我们希望快速得到 $x_t$ ，可以不通过递推式而是求一个通项的表达形式。假定 $\alpha_t = 1-\beta_t$ ， $\overline{\alpha_t} = \prod_{i=1}^t\alpha_i$ ， $\{z_i, \overline{z}_i \sim \mathcal N(0,I)\}_{i=0}^T$ 为若干独立同分布的随机变量，根据递推公式，有
$\begin{align} x_t &= \sqrt{\alpha_t}x_{t-1} + \sqrt{1-\alpha_t}z_{t-1} \nonumber \\&= \sqrt{\alpha_t\alpha_{t-1}}x_{t-1} + \sqrt{\alpha_t}\sqrt{1-\alpha_{t-1}}z_{t-2}+ \sqrt{1-\alpha_t}z_{t-1} \nonumber \\&\overset{(i)}{=} \sqrt{\alpha_t\alpha_{t-1}}x_{t-1} + \sqrt{1-\alpha_t\alpha_{t-1}}\overline{z}_{t-2} \nonumber \\&= ...\nonumber \\&=\sqrt{\overline{\alpha}_t}x_0+\sqrt{1-\overline{\alpha}_t}\overline{z}_0 \end{align}$
其中，等式 (i) 为两个高斯分布的线性叠加仍为一个高斯分布，即对于 $A\sim \mathcal{N}(\mu_a, \sigma_a^2)$ ， $B\sim \mathcal{N}(\mu_b, \sigma_b^2)$ ，线性叠加 $\sim \mathcal{N}(m\mu_a+n\mu_b, m^2\sigma_a^2+n^2\sigma_b^2)$ 。因此，有
$\begin{align} x_t|x_0 \sim \mathcal N(\sqrt{\overline\alpha_t}x_0,(1-\overline\alpha_t)I) \end{align}$
对于扩散过程，我们希望加噪的强度从小到大，即 $\beta_1 <\beta_2 < ...<\beta_{T-1} < \beta_T$ ，有 $1>\overline{\alpha}_1 > ... > \overline{\alpha}_T>0$

逆扩散过程/采样过程

我们希望从 $x_T$ 中恢复出 $x_0$ ，为此需要建模条件概率 $q(x_{t-1}|x_t)$ ，注意到，根据Bayes公式，有
$q(x_{t-1}|x_t) = q(x_t |x_{t-1})\frac{q(x_{t-1})}{q(x_t)}$
我们无法得到真实的 $q(x_{t-1})$ ，因此采用条件概率分布来逼近 $q(x_{t-1}|x_t)$ ，有
$q(x_{t-1} |x_{t})\approx q(x_{t-1} |x_{t},x_0) = q(x_t |x_{t-1},x_0)\frac{q(x_{t-1}|x_0)}{q(x_t|x_0)}$
其中 $q(x_{t-1}|x_t,x_0)$ 是可以计算出来的。使用贝叶斯公式，有
$\begin{align} q(x_{t-1}|x_t,x_0) &= q(x_t |x_{t-1}, x_0)\frac{q(x_{t-1}|x_0)}{q(x_t|x_0)} \nonumber \\&\propto \exp\left( -\frac{1}{2}\left(\frac{(x_t-\sqrt{\alpha_t}x_{t-1})^2}{\beta_t}+\frac{(x_{t-1}-\sqrt{\overline\alpha_{t-1}}x_{0})^2}{1-\overline\alpha_{t-1}}-\frac{(x_{t}-\sqrt{\overline\alpha_{t}}x_{0})^2}{1-\overline\alpha_{t}}\right)\right) \nonumber \\&=\exp\left( -\frac{1}{2}\left((\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline\alpha_t})x_{t-1}^2 - (\frac{2\sqrt{\alpha_t}}{\beta_t}x_t+\frac{2\sqrt{\overline \alpha_t}}{1-\overline \alpha_t}x_0)x_{t-1} + C(x_0,x_t) \right)\right)\nonumber \end{align}$
对比高斯分布的形式，可以得到条件概率分布 $x_{t-1}|x_t,x_0$ 服从均值，方差为如下形式的高斯分布
$\begin{align} \mu &= (\frac{\sqrt{\alpha_t}}{\beta_t}x_t+\frac{\sqrt{\overline \alpha_t}}{1-\overline \alpha_t}x_0) / (\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline\alpha_{t-1}}) = \frac{\sqrt{\alpha}_t(1-\overline\alpha_{t-1})}{1-\overline\alpha_t}x_t+\frac{\sqrt{\overline\alpha_{t-1}}\beta_{t}}{1-\overline\alpha_{t}}x_0 \nonumber \\ \sigma^2 &= \tilde{\beta}_t = \frac{1}{\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline\alpha_{t-1}}} = \frac{1-\overline\alpha_{t-1}}{1-\overline \alpha_t}\beta_t \end{align}$
我们使用神经网络来拟合 $\overline z_0$ ，即 $\epsilon_\theta(x_t,t)\approx\overline z_0$ ，注意到，我们通过 $\overline z_0$ 的加噪方式得到的 $x_t$ ，因此，神经网络本质上是拟合的添加的噪声。将 (1) 式代入到其中，消掉 $x_{0}$ ，得到
$\begin{align} \mu &= \tilde \mu_t = \frac{1}{\sqrt{\alpha_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{\alpha}_t}}\overline z_0\right) \end{align}$
因此，有
$\begin{align} x_{t-1}|x_t \sim \mathcal N\left(\frac{1}{\sqrt{\alpha_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{\alpha}_t}}\overline z_0\right),\frac{1-\overline\alpha_{t-1}}{1-\overline \alpha_t}\beta_t \right) \end{align}$

损失函数

考虑损失函数的设计，假定我们使用含参 $\theta$ 的概率模型 $p_\theta$ 去拟合真实数据分布 $q$ ，根据 KL 散度的性质，有
$\begin{align} -\log p_\theta(x_0) &\leq -\log p_\theta(x_0) +\text{KL}(q(x_{1:T}|x_0)||p_\theta(x_{1:T}|x_0)) \nonumber \\&= -\log p_\theta(x_0) +\mathbb E_{q(x_{1:T}|x_0)}[\log \frac{q(x_{1:T}|x_0)}{p_\theta(x_{0:T})/p_\theta(x_0)}] \nonumber \\&= \mathbb E_{q(x_{1:T}|x_0)}[\log \frac{q(x_{1:T}|x_0)}{p_\theta(x_{0:T})}] \nonumber \end{align}$
对左右两边求期望，有
$\mathbb E_{q(x_0)}[-\log p_\theta(x_0)]\leq \mathbb E_{q(x_{0:T}|x_0)}[\log \frac{q(x_{1:T}|x_0)}{p_\theta(x_{0:T})}] \overset{\triangle}{=} L_\text{VLB}$
对 $L_\text{VLB}$ 进行化简，有
$\begin{align} L_\text{VLB} &= \mathbb E_{q(x_{0:T}|x_0)}[\log \frac{q(x_{1:T}|x_0)}{p_\theta(x_{0:T})}] \nonumber \\&=\mathbb E_{q(x_{0:T}|x_0)}[-\log p(x_T)+\sum_{i=1}^T\log\frac{q(x_t|x_{t-1})}{p_\theta(x_{t-1}|x_t)}] \nonumber \\&\overset{(i)}{=}\mathbb E_{q(x_{0:T}|x_0)}[-\log p(x_T)+\sum_{i=2}^T\log(\frac{q(x_{t-1}|x_t,x_0)}{p_\theta(x_{t-1}|x_t)}\frac{q(x_t|x_0)}{q(x_{t-1}|x_0)}) + \log\frac{q(x_1|x_{0})}{p_\theta(x_{0}|x_1)}] \nonumber \\&=\mathbb E_{q(x_{0:T}|x_0)}[-\log p(x_T)+\sum_{i=2}^T\log\frac{q(x_{t-1}|x_t,x_0)}{p_\theta(x_{t-1}|x_t)}+\log\frac{q(x_T|x_0)}{q(x_{1}|x_0)} + \log\frac{q(x_1|x_{0})}{p_\theta(x_{0}|x_1)}] \nonumber \\&=\mathbb E_{q(x_{0:T}|x_0)}[\sum_{i=2}^T\log\frac{q(x_{t-1}|x_t,x_0)}{p_\theta(x_{t-1}|x_t)}+\log\frac{q(x_T|x_0)}{p(x_T)} - \log p_\theta(x_{0}|x_1)] \nonumber \\&=\text{KL}(q(x_T|x_0)||p(x_T)) +\sum_{t=2}^T\text{KL}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t))-\log p_\theta(x_0|x_1) \end{align}$
其中，等号 (i) 处推导如下所示
$q(x_t|x_{t-1}) = q(x_t|x_{t-1},x_0)=\frac{q(x_{t-1}|x_t,x_0)q(x_t|x_0)}{q(x_{t-1}|x_0)}$
我们固定方差 $\beta_t$ 为一超参数，因此对于公式(5)中的第一项是无参的常量，可以忽略；对于最后一项，作者提出简化掉来训练会更好。因为 $p_\theta$ 是我们拟合分布使用的模型，所以我们可以假定 $p_\theta(x_{t-1}|x_t) = \mathcal N(\mu_\theta(x_t,t),\sigma_t^2 I))$ ，因此该分布仅均值部分与输入有关，可以得到如下式子
$\begin{align} \text{KL}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t)) &=\mathbb E_q[\frac{1}{2\sigma_t^2}||\tilde\mu_t(x_t,x_0)-\mu_\theta(x_t,t)||_2^2] +C \nonumber \end{align}$
设 $\epsilon \sim \mathcal N(0,I)$ ，使用公式 (1) $x_0$ 与 $\epsilon$ 替换掉里面的 $x_t$ ，同时使用 (4) 式替换掉其中的 $\tilde\mu_t$
$\begin{align} \text{KL}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t)) &=\mathbb E_q[\frac{1}{2\sigma_t^2}||\frac{1}{\sqrt{\alpha_t}}(x_t(x_0,\epsilon)-\frac{\beta_t}{\sqrt{1-\overline\alpha_t}}\epsilon)-\mu_\theta(x_t,t)||_2^2] +C \nonumber \end{align}$
其中公式(4)给出了 $\mu_\theta$ 与 $\epsilon_\theta$ 满足如下关系
$\mu_\theta(x_t,t) = \frac{1}{\sqrt{\alpha_t}}( x_t(x_0,\epsilon)-\frac{\beta_t}{\sqrt{1-\overline\alpha_t}}\epsilon_\theta(x_t,t))$
因此，有
$\begin{align} \text{KL}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t)) &=\mathbb E_{x_0,\epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\overline{\alpha}_t)}||\epsilon-\epsilon_\theta(\sqrt{\overline\alpha_t}x_0+\sqrt{1-\overline\alpha_t}\epsilon, t)||_2^2] +C \nonumber \end{align}$
损失函数即为
$\begin{align} \mathcal L(\theta) &=\mathbb E_{t,x_0,\epsilon}[||\epsilon-\epsilon_\theta(\sqrt{\overline\alpha_t}x_0+\sqrt{1-\overline\alpha_t}\epsilon, t)||_2^2] \end{align}$

算法流程

在这里插入图片描述

DDIM

DDPM的核心问题在于采样需要迭代足够多的次数，而且理论推导中的概率分布是 $q(x_{t-1}|x_t)$ ，因此每次迭代的下标变化为1，如果我们希望下标变化可以不局限为1，例如如果我们支持计算 $q(x_s|x_t)(s<t)$ 那么我们可以任意设置从 $T\rightarrow 0$ 迭代的次数，这需要我们在采样时突破下式中的 $q(x_t |x_{t-1})$
$q(x_{t-1} |x_{t})\approx q(x_{t-1} |x_{t},x_0) = q(x_t |x_{t-1},x_0)\frac{q(x_{t-1}|x_0)}{q(x_t|x_0)} = q(x_t |x_{t-1})\frac{q(x_{t-1}|x_0)}{q(x_t|x_0)}$
如果没有 $q(x_t|x_{t-1},x_0)$ ，但仍可以通过下式来求解
$\int p(x_{t−1}|x_t,x_0)p(x_t|x_0)dx_t=p(x_{t−1}|x_0)$
其中 $p(x_t|x_0),p(x_{t-1}|x_0)$ 都为高斯分布，可以假定 $p(x_{t−1}|x_t,x_0)$ 也为高斯分布，其均值为 $x_t$ 与 $x_0$ 的线性组合

更一般地，我们考虑任意两个下标 $x_s,x_t(s<t)$ ，假定 $x_s = m_{s|t} x_t+n_{s|t}x_0+\sigma_{s|t}\varepsilon_1$ ，我们已知 $q(x_s|x_0)$ ， $q(x_t|x_0)$ ，联立可得
$\left\{\begin{matrix} x_s = m_{s|t} x_t+n_{s|t}x_0+\sigma_{s|t}\varepsilon_1 \\ x_t = \sqrt{\overline\alpha_t} x_0+\sqrt{1-\overline\alpha_t}\varepsilon_2 \\ x_s = \sqrt{\overline\alpha_s} x_0+\sqrt{1-\overline\alpha_s}\varepsilon_3 \end{matrix}\right.$
可得关于 $m_{s|t}$ 与 $n_{s|t}$ 的联立表达式
$\left\{\begin{matrix} m_{s|t}\sqrt{\overline\alpha_t} + n_{s|t} = \sqrt{\overline\alpha_s} \\ m_{s|t}^2(1-\overline\alpha_t) + \sigma^2_{s|t} = 1-\overline\alpha_s \end{matrix}\right.$
解得
$\left\{\begin{matrix} m_{s|t} = \sqrt{\frac{1-\overline\alpha_s-\sigma_{s|t}^2}{1-\overline\alpha_t}} \\ n_{s|t} = \sqrt{\overline\alpha_{s}} - \sqrt{\frac{\overline\alpha_t}{1-\overline\alpha_t}(1-\overline\alpha_s-\sigma_{s|t}^2)} \end{matrix}\right.$
带回到原式，可得任意两下标 $s < t$ 的采样公式
$x_s = \sqrt{\overline\alpha_s}x_0+\sqrt{1-\overline\alpha_{s}-\sigma_{s|t}^2}\frac{x_t-\sqrt{\overline\alpha_t}x_0}{\sqrt{1-\overline\alpha_t}}+\sigma_{s|t}\varepsilon$
注意到，DDIM并没有使用 $q(x_t|x_s)$ ，因此 DDIM 相比于 DDPM 具有更加泛化的形式，这里的 $x_0$ 是使用 $x_t$ 、 $\epsilon_\theta(x_t,t)$ 和公式 (1) 给出的估计值，而 $\frac{x_t-\sqrt{\overline\alpha_t}x_0}{\sqrt{1-\overline\alpha_t}}$ 对应 $\epsilon_\theta(x_t,t)$ ，即
$x_s = \sqrt{\frac{\overline\alpha_s}{\overline\alpha_t}}(x_t-\sqrt{1-\overline\alpha_t}\epsilon_\theta(x_t,t))+\sqrt{1-\overline\alpha_{s}-\sigma_{s|t}^2}\epsilon_\theta(x_t,t)+\sigma_{s|t}\varepsilon$