扩散模型 Diffusion Models - 原理篇

原创

已于 2022-07-15 10:27:06 修改 · 4.2k 阅读

40 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉

于 2022-07-15 10:14:55 首次发布

本文介绍了扩散模型的原理，包括基于马尔可夫链的前向过程，通过非平衡热力学理论设计的逆扩散过程，以及参数重采样和优化策略。重点讲解了如何通过KL散度和神经网络拟合噪声分布，以及训练和采样的实际应用。

`扩散模型 Diffusion Models - 原理篇`

参考博客及视频链接：

What are Diffusion Models?

Diffusion Model扩散模型理论与完整PyTorch代码详细解读

论文：

2015 年 Deep Unsupervised Learning using Nonequilibrium Thermodynamics

2020 年 Generative Modeling by Estimating Gradients of the Data Distribution

2020 年 Denoising Diffusion Probabilistic Models

数学公式基础

联合条件概率
$\\ P(B,C|A)= P(A,B,C)~/~P(A)= P(C|A,B)~P(B|A)$
基于马尔可夫假说的联合条件概率，如果满足 A->B->C，则
$\\ P(B,C|A)= P(A,B,C)~/~P(A)= P(C|B)~P(B|A)$
高斯分布的 KL 散度公式

对于两个单一变量的高斯分布 p 和 q 而言：
$KL(p,q)=log\frac{\sigma_2}{\sigma_1}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}-\frac{1}{2}$
参数重采样

为了网络可训练，从高斯分布 $\mathcal{N}(\mu,\sigma)$ 中采样，等价于先从标准分布 $\mathcal{N}(0,I)$ 采样出 $z$ ，再得到 $\sigma*z+\mu$ 。

原理

扩散模型的灵感来自于非平衡热力学。定义了一个扩散步骤的马尔可夫链（当前状态只与上一时刻的状态有关），慢慢地向真实数据中添加随机噪声（前向过程），然后学习反向扩散过程（逆扩散过程），从噪声中构建所需的数据样本。

在这里插入图片描述

前向过程

前向过程是不含可学习参数的，随着 $t$ 不断增大，最终分布变成各向独立的高斯分布。定义真实数据分布 $x_0 \sim q(x)$ ，我们在前向过程中逐步加入一个小的高斯噪声，一共加入 $T$ 步，从而产生了一系列加噪的样本 $x_1,x_2,\dots,x_T$ ，加入噪声的均值和方差由 $\beta_t$ 决定，其在 $(0, 1)$ 之间，且 $\beta_1 < \beta_2 < \dots < \beta_T$ ，这意味着所加的噪声是越来越大的。
$q(x_t|x_{t-1}) = \mathcal{N}(x_t;\sqrt{1-\beta_t}~x_{t-1},\beta_tI)$
由于定义为马尔可夫链，所以给定 $x_0$ 的 $x_{1:T}$ 的联合概率分布为
$q(x_{1:T}|x_0)=\Pi_{t=1}^{T}~q(x_t|x_{t-1})$
上述式子计算 $q(x_t|x_0)$ 需要不断迭代，我们希望给定 $x_0,\beta_t$ 就可以计算出来。给定 $\alpha_t = 1-\beta_t~,~\bar{\alpha}_t=\Pi_{i=1}^{t} \alpha_i$
$\begin{align} x_t &= \sqrt{\alpha_t}~x_{t-1}+\sqrt{1-\alpha_t}~z_{t-1} ~~~~~~~~~~~~~\#参数重整化和替换\\ &= \sqrt{\alpha_t}~(\sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_{t-1}}z_{t-2})+\sqrt{1-\alpha_t}~z_{t-1} \\ &= \sqrt{\alpha_t\alpha_{t-1}}~x_{t-2}+\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}z_{t-2}+\sqrt{1-\alpha_t}~z_{t-1} \\ \\ & \#由于两个正态分布X\sim\mathcal{N}(\mu_1,\sigma_1),Y\sim\mathcal{N}(\mu_2,\sigma_2)叠加后的分布aX+bY的均值是a\mu_1+b\mu_2,方差是a^2\sigma_1^2+b^2\sigma_2^2 \\ & \#所以\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}z_{t-2}+\sqrt{1-\alpha_t}~z_{t-1} 均值为 0，方差为 1-\alpha_t\alpha_{t-1}再利用参数重整化\\ \\ &= \sqrt{\alpha_t\alpha_{t-1}}~x_{t-2}+\sqrt{1-\alpha_t\alpha_{t-1}}\bar{z}_{t-2}~~~~~~~~~~~~~\#此\bar{z}_{t-2}不同于z_{t-2} \\ &= \dots \\ &= \sqrt{\bar{\alpha}_t} x_0 +\sqrt{1-\bar{\alpha}_t}z ~~~~~~~~~~~~~\#参数逆重整化\\ \\ & q(x_t|x_0) = \mathcal{N}(x_t;\sqrt{\bar{\alpha}_t} x_0,(1-\bar{\alpha}_t)I)~~~~~~~~~~~~~\#此时无需迭代即可算出任意时刻q(x_t|x_0) \end{align}$

逆扩散过程

逆过程是从高斯噪声中恢复原始数据，由于正向过程中我们每次加的噪声很小，所以我们假设 $p(x_{t-1}|x_t)$ 也是一个高斯分布，我们可以使用神经网络进行拟合。逆过程也是一个马尔科夫链过程。
$p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\Sigma_\theta(x_t,t))$