扩散模型DDPM的解读

joejoeqian

已于 2022-12-13 11:54:09 修改

阅读量1.3k

点赞数 4

CC 4.0 BY-SA版权

文章标签：人工智能算法 python

于 2022-12-04 22:34:38 首次发布

本文链接：https://blog.youkuaiyun.com/joejoeqian/article/details/128178120

DDPM

写在前面
1.将生成模型类比为建楼和拆楼
2. 回到拆楼，怎么拆楼？
- 2.1 拆楼的过程
3.现在开始建楼，怎么建楼？
- 3.1 楼的形式？
4.还有什么问题？方差可能会太大
- 4.1 为什么会有方差大的风险？
- 4.2 想方设法让随机变量变少点
5.怎么生成的
6.超参的设置

写在前面

本文基于苏剑林老师的文章，在此基础上加了一点点自己的理解，在公式的推导上步骤进行了补全（苏老师写的已经很好了，只不过我把步骤写全了，让零基础的人更能看懂)。
苏老师的文章

1.将生成模型类比为建楼和拆楼

想要做一个像GAN那样的生成模型，它实际上是将一个随机噪声 $z$ 变换成一个数据样本 $x$ 的过程。

1.1 类比

随机噪声 $z$ 类比为砖瓦水泥，样本数据 $x$ 类比为高楼大厦；
$z$ 到 $x$ 的变换，相当于 砖瓦水泥建设高楼大厦；
生成模型就是一支用原材料建设高楼大厦的施工队，过程很难;

1.2 换种思路：先拆楼

所以我们换种思路：建楼难，我们就先不建楼，改成拆楼，考虑将高楼大厦一步步地拆为砖瓦水泥，这样我们就知道怎么建楼；
拆楼的过程：设 $x_0$ 为建好的高楼大厦（数据样本）， $x_T$ 为拆好的砖瓦水泥（随机噪声），假设“拆楼”需要 $T$ 步，整个过程可以表示为 $x=x_0\rightarrow x_1\rightarrow x_2\rightarrow...\rightarrow x_{T-1}\rightarrow x_T=z \tag{1}$

1.3 建楼的难点

建高楼大厦的难度在于，从原材料 $x_T$ 到最终高楼大厦 $x_0$ 的跨度过大，普通人很难理解 $x_T$ 是怎么一下子变成 $x_0$ 的，先记住我们的目标生成 $x_0$ 这个高楼大厦。
当我们知道拆楼的过程 $x_1,x_2,...,x_T$ 后，就可以知道 $x_{t-1}\rightarrow x_t$ ( $t - 1$ 步到 $t$ 步时)代表着拆楼的一步；
反过来 $x_{t}\rightarrow x_{t-1}$ 就是建楼的一步；
如果能学会两者之间的变换关系 $x_{t-1}=\mu(x_t)$ （这里是建楼 $x_{t}\rightarrow x_{t-1}$ ），那么从 $z=x_T$ 开始，反复执行 $x_{T-1}=\mu(x_T)$ 、 $x_{T-2}=\mu(x_{T-1})$ 、 $. . .$ ，最终就将高楼大厦造出来了 $x_0$ 。

2. 回到拆楼，怎么拆楼？

DDPM做生成模型的过程，其实跟上述“拆楼-建楼”的类比是完全一致的，它也是先反过来构建一个从数据样本渐变到随机噪声的过程，然后再考虑其逆变换，通过反复执行逆变换来完成数据样本的生成。

2.1 拆楼的过程

DDPM将“拆楼”的过程建模为 $x_t=\alpha_t x_{t-1}+\beta_t \varepsilon_t, (\varepsilon_t \sim N(0, I)) \tag{2}$
- $\alpha_t,\beta_t>0$ 且 $\alpha_t^2+\beta_t^2=1$ ；(优化了一下原论文的参数)
- $\beta_t$ 非常接近0，代表着单步拆楼中对原来楼体的破坏程度；
- 噪声 $\varepsilon_t$ 的引入代表着对原始信号的一种破坏，也就是原材料;
- 每一步拆楼都将 $x_{t-1}$ 拆分成 $\alpha_tx_{t-1}$ 的楼体+ $\beta_t\varepsilon_t$ 的原料。这样想：拆楼，都是在原楼体上拆，这样，原楼体还剩，a*原楼体(a肯定小于1)，还有一堆拆下来的砖块等原料。
反复执行这个拆楼步骤：
$\begin{aligned} x_t &=\alpha_t x_{t-1}+\beta_t \varepsilon_t \\ &=\alpha_t(\alpha_{t-1} x_{t-2}+\beta_{t-1} \varepsilon_{t-1})\\ &=···\\ &=(\alpha_t···\alpha_1)x_0+(\alpha_t···\alpha_2)\beta_1\varepsilon_1+(\alpha_t···\alpha_3)\beta_2\varepsilon_2+···+\alpha_t\beta_{t-1}\varepsilon_{t-1}+\beta_{t}\varepsilon_{t} \tag{3} \end{aligned}$
- 第二项到最后（ $(\alpha_t···\alpha_2)\beta_1\varepsilon_1+(\alpha_t···\alpha_3)\beta_2\varepsilon_2+···+\alpha_t\beta_{t-1}\varepsilon_{t-1}+\beta_{t}\varepsilon_{t}$ ）就是多个独立的正态噪声之和。
- 根据正态分布的叠加性：
  - 如： $(\alpha_t···\alpha_2)\beta_1\varepsilon_1 \sim N\left(0,(\alpha_t···\alpha_2)^2\beta_1^2·I \right)$
  - 所以都是均值为0，方差为 $(\alpha_t···\alpha_2)^2\beta_1^2,(\alpha_t···\alpha_3)^2\beta_2^2,...,\alpha_t^2\beta_{t-1}^2,\beta_{t}^2$ 的正态分布
  - 所有噪声和叠加，就是均值为0，方差为 $(\alpha_t···\alpha_2)^2\beta_1^2+(\alpha_t···\alpha_3)^2\beta_2^2+...+\alpha_t^2\beta_{t-1}^2+\beta_{t}^2$ 的正态分布（这里很容易得出，可以去看一下（常数*一个随机变量）的方差怎么算的，其实就是常数的平方*随机变量的方差）。
  - 用 $\alpha_t^2+\beta_t^2=1$ 进行恒等变换（就是所有 $\beta$ 换成 $\alpha$ ）就会得，方差为： $1-(\alpha_t···\alpha_1)^2$
  - 递推式就变成了: $x_t=(\alpha_t···\alpha_1)x_0+\sqrt{1-(\alpha_t···\alpha_1)^2}\bar\varepsilon_t,\bar\varepsilon_t \sim N(0,I) \tag{4}$
  - 记 $\bar\alpha_t=\alpha_t···\alpha_2\alpha_1$ ， $\bar\beta_t=\sqrt{1-(\alpha_t···\alpha_1)^2}$
DDPM会选择适当 $\alpha_t$ 形式，使得 $(\alpha_t···\alpha_1)\approx 0$ （记住这里，后面会解释为什么这样），这意味着经过 $T$ 步的拆楼后，所剩的楼体几乎没有了（ $x_0$ 几乎没有了， $x_0$ 前面的系数是一堆很小的数相乘），已经几乎全部转化为原材料 $\varepsilon$ （原论文中， $x_0$ 前面的系数是 $\sqrt{\bar \alpha_t}$ ， $\bar\varepsilon$ 前面的系数是 $\sqrt{1-\bar\alpha_t}$ ，平方和也是1，所以没有影响，这样改动，更美观）。

3.现在开始建楼，怎么建楼？

拆楼是 $x_{t-1}\rightarrow x_t$ 的过程，这个过程，我们会得到很多数据对 $x_{t-1},x_t)$
现在反过来，建楼就是从这些数据对中学习一个 $x_{t-1}\leftarrow x_t$ 的模型。
设该模型为 $\hat x_{t-1}=\mu(x_t)$ ，容易想到的学习方案就是最小化两者的欧氏距离： $\|x_{t-1}-\hat x_{t-1}\|^2=\|x_{t-1}-\mu(x_t)\|^2 \tag{5}$

3.1 楼的形式？

首先拆楼的递推式 $x_t=\alpha_t x_{t-1}+\beta_t \varepsilon_t$ 可以移项得到为 $x_{t-1}=\frac{1}{\alpha_t}(x_t-\beta_t\varepsilon_t)$
so，我们就会想能不能把 $\mu(x_t)$ 设计为和上面移项后的函数的形式大致一样： $\mu(x_t)=\frac{1}{\alpha_t}(x_t-\beta_t\epsilon_\theta(x_t,t)) \tag{6}$
其中 $\theta$ 是训练参数， $\epsilon_\theta$ 是预测的是带噪图片所带的噪声，不是随机噪声，将 $(6)$ 其代入到损失函数 $(5)$ ，得到进一步的损失函数： $\begin{aligned}||x_{t-1}-\mu(x_t)||^2&=\|x_{t-1}-\frac{1}{\alpha_t}(x_t-\beta_t\epsilon_\theta(x_t,t))\|^2 \\&=\|x_{t-1}-\frac{x_t}{\alpha_t}+\frac{\beta_t}{\alpha_t}\epsilon_\theta(x_t,t)\|^2\\ &=\|x_{t-1}-\frac{\alpha_t x_{t-1}+\beta_t \varepsilon_t}{\alpha_t}+\frac{\beta_t}{\alpha_t}\epsilon_\theta(x_t,t)\|^2\\ &=\frac{\beta_t^2}{\alpha_t^2}||\varepsilon_t-\epsilon_\theta(x_t,t)||^2\tag{7}\end{aligned}$
$\frac{\beta_t^2}{\alpha_t^2}$ 代表 $l o s s$ 的权重
下一步就是消去 $l o s s$ 中的 $x_t$
$x_t$ 的表达式用退一步的 $x_{t-1}$ 表示为： $\begin{aligned}x_t&=\alpha_t x_{t-1}+\beta_t \varepsilon_t\\ &=\alpha_t(\bar\alpha_{t-1}x_0+\bar\beta_{t-1}\bar\varepsilon_{t-1})+\beta_t\varepsilon_t\\ &=\bar\alpha_tx_0+\alpha_t\bar\beta_{t-1}\bar\varepsilon_{t-1}+\beta_t\varepsilon_t \tag{8}\end{aligned}$
其中 $\bar\alpha_{t-1}$ 为 $\alpha_{t-1}···\alpha_1$ ， $\bar\beta_{t-1}$ 为 $\sqrt{1-(\alpha_{t-1}···\alpha_1)^2}$
最重要的是 $\bar\varepsilon_t$ 是由 $\varepsilon_1,...,\varepsilon_{t-1}$ 叠加的，和 $\varepsilon_t$ 是无关的，独立的（这一点非常重要，下面会说为什么要这样做？）
得到的 $l o s s$ 形式为： $||\varepsilon_t-\epsilon_\theta(\bar\alpha_tx_0+\alpha_t \bar \beta_{t-1}\bar\varepsilon_{t-1}+\beta_t\varepsilon_t,t)||^2 \tag{9}$
为什么要得到 $(8)$ 中的 $x_t$ ，不能直接用 $(4)$ 的 $x_t=(\alpha_t···\alpha_1)x_0+\sqrt{1-(\alpha_t···\alpha_1)^2}\bar\varepsilon_t$ 给出的 $x_t$ 吗？
- 不行， $\bar\varepsilon_t$ 和 $\varepsilon_t$ 有关联，非独立，因为之前我们已经sample了，所以在给定 $\varepsilon_t$ 的情况下，不能独立采样 $\bar\varepsilon_t$ ，看 $(8)$ 下面的解释。

4.还有什么问题？方差可能会太大

4.1 为什么会有方差大的风险？

损失函数可能方差过大的风险，从 $(9)$ 中就可以看出，需要对四个变量进行sample:
- 1.从训练样本中采样一个 $x_0$
- 2.从正态分布 $N (0, I)$ 中采样 $\bar\varepsilon_{t-1}$ 和 $\varepsilon_t$
- 3.从 $1\sim T$ 中采样一个 $t$
要采样的随机变量越多，就越难对损失函数做准确的估计，反过来说就是每次对损失函数进行估计的波动（方差）过大了。

4.2 想方设法让随机变量变少点

对于 $\alpha_t\bar\beta_{t-1}\bar\varepsilon_{t-1}+\beta_t\varepsilon_t$ ，由正态分布的叠加性，相当于单个随机变量 $\bar\beta_t \varepsilon |\varepsilon\sim N(0,I)$ ，其中 $\varepsilon\sim N(0,I)$
所以我们只要保证系数为 $\alpha_t\bar\beta_{t-1}$ 和 $\beta_t$ 就可以
构造出 $\beta_t\bar\varepsilon_{t-1}-\alpha_t\bar\beta_{t-1}\varepsilon_t$ ，经过简单的计算得出 $\bar\beta_t w|{w \sim N(0,I)}$ ，其目的就是希望凑出下面那个期望，且为0，这样就能保证是独立的正态随机变量了
并且可以验证 $\mathbb{E}[\varepsilon w^T]=0$ ，验证方法可以用 $\bar\beta_t\bar\beta_t\varepsilon w^T)=...$ 展开就ok
- 由 $E (x y) = E (x) E (y) + C o v (x, y)$ 得
- $\mathbb{E}[\varepsilon w^T]=E(\varepsilon) E(w^T) + Cov(\varepsilon,w^T)=0$
- 对于均值为0的高斯随机变量，不相关等价于独立
- 两个相互独立的正态随机变量。
反过来将 $\varepsilon_t$ 用 $\varepsilon,w$ 重新表示出来:
$\begin{aligned} \begin{cases} \alpha_t\bar\beta_{t-1}\bar\varepsilon_{t-1}+\beta_t\varepsilon_t=\bar\beta_t \varepsilon \tag{10}\\ \beta_t\bar\varepsilon_{t-1}-\alpha_t\bar\beta_{t-1}\varepsilon_t=\bar\beta_t\\ \end{cases} \end{aligned}$
$(10)$ 中的方程组第一个式子记为 $(1)$ ，第二个式子记为 $(2)$
求解过程：
- $(1)*\beta_t$ 得 $(3)$
- $(2)*\alpha_t\bar\beta_{t-1}$ 得 $(4)$
- $(4) - (3)$ ，就是为了将 $\bar\varepsilon_{t-1}$ 消掉： $\beta_t^2\varepsilon_t+\alpha_t^2\bar\beta_{t-1}^2\varepsilon_t=\bar\beta_t\beta_t\varepsilon-\bar\beta_t\alpha_t\bar\beta_{t-1}w \tag{11}$
由上式 $(11)$ ，即解得： $\varepsilon_t=\frac{\bar\beta_t\beta_t\varepsilon-\bar\beta_t\alpha_t\bar\beta_{t-1}w}{\beta_t^2+\alpha_t^2\bar\beta_{t-1}^2}=\frac{(\beta_t\varepsilon-\alpha_t\bar\beta_{t-1}w)\bar\beta_t}{\beta_t^2+\alpha_t^2\bar\beta_{t-1}^2}=\frac{\beta_t\varepsilon-\alpha_t\bar\beta_{t-1}w}{\bar\beta_t} \tag{12}$
上式 $(12)$ 代入到 $(9)$ 式 $\|\varepsilon_t-\epsilon_\theta(\bar\alpha_tx_0+\alpha_t\bar\beta_{t-1}\bar\varepsilon_{t-1}+\beta_t\varepsilon_t,t)\|^2$ (这里面 $\alpha_t\bar\beta_{t-1}\bar\varepsilon_{t-1}+\beta_t\varepsilon_t$ 已经等于 $\bar\beta_t\varepsilon$ ，看不懂的，可以看一下上面的标准正态分布叠加)
得
$\begin{aligned}\mathbb{E}_{{\bar\varepsilon_{t-1},\varepsilon_t}\sim N(0,I)}\left[||\varepsilon_t-\epsilon_\theta(\bar\alpha_tx_0+\alpha_t\bar\beta_{t-1}\bar\varepsilon_{t-1}+\beta_t\varepsilon_t,t)||^2 \right]\\ =\mathbb{E}_{{w,\varepsilon}\sim N(0,I)}\left[\left\|\frac{\beta_t\varepsilon-\alpha_t\bar\beta_{t-1}w}{\bar\beta_t}-\epsilon_\theta(\bar\alpha_tx_0+\bar\beta_t\varepsilon,t)\right\|^2 \right] \end{aligned} \tag{13}$
现在损失函数关于 $w$ 只是二次的，所以我们可以展开然后将它的期望直接算出来：

$\|·\|^2=(\frac{\beta_t}{\bar{\beta_t}}\varepsilon)^2-\frac{2\alpha_t\bar{\beta}_{t-1}\beta_t}{\bar{\beta_t}}\varepsilon w+(\frac{\alpha_t\bar{\beta}_{t-1}}{\bar{\beta_t}}w)^2+\frac{2\alpha_t\bar{\beta}_{t-1}w}{\bar{\beta_t}}\epsilon_{\theta}-\frac{2\beta_t\varepsilon}{\bar{\beta_t}}\epsilon_{\theta}+\epsilon_{\theta}^2 \tag{14}$

结果是展开模长后，得到关于 $w$ 的常数项、一次项、二次项。
- 常数项的积分直接积出来，一次项的积分为0（均值为0），二次项的积分得到一个与训练参数无关的常数。
这里几个公式，可以对上面解释：
- 对二次项的积分得到一个与训练参数无关的常数： $E(X^2)=D(X)+[E(X)]^2$ ，可以求 $w$ 的二次项的期望，求出来是常数
- 也可以用积分求对 $\int x^2f(x)dx$ 详情见我之前的笔记
- 一次项的积分为0：
- $E(\varepsilon w)=0$ 之前证过了
$(14)$ 式化简得： $\|·\|^2=(\frac{\beta_t}{\bar{\beta_t}}\varepsilon)^2-\frac{2\beta_t\varepsilon}{\bar{\beta_t}}\epsilon_{\theta}+\epsilon_{\theta}^2+C \tag{15}$
- 其中 $C$ 为常数
显然这是一个 $a-b)^2$ 公式，所以可以继续化简： $\|·\|^2=(\frac{\beta_t}{\bar{\beta_t}}-\epsilon_{\theta})^2+C\tag{16}$
继续将常数提取出来，简化： $(\frac{\beta_t}{\bar \beta_t})^2 \mathbb{E}_{\varepsilon \sim N(0,I)}\left[\left\|\varepsilon-\frac{\bar \beta_t}{\beta_t}\epsilon_{\theta(\bar\alpha_t x_0+\bar\beta_t\varepsilon ,t)}\right\|^2 \right]+C \tag{17}$
我们只关心有用的项，所以将常数和系数（权重）丢掉，最终我们得到了DDPM最终所用的损失函数： $\left\|\varepsilon-\frac{\bar \beta_t}{\beta_t}\epsilon_{\theta(\bar\alpha_t x_0+\bar\beta_t\varepsilon ,t)}\right\|^2 \tag{18}$
- 原论文中的 $\epsilon_{\theta}$ 就是这里的 $\frac{\bar \beta_t}{\beta_t}\epsilon_{\theta}$
以上就是整个训练过程

5.怎么生成的

训练完之后，就可以从一个随机噪声 $x_T\sim N(0,I)$ 出发执行 $T$ 步 $(6)$ 式 $\mu(x_t)=\frac{1}{\alpha_t}(x_t-\beta_t\epsilon_{\theta(x_t,t)})$ : $x_{t-1}=\frac{1}{\alpha_t}(x_t-\beta_t\epsilon_{\theta(x_t,t)}) \tag{19}$
这对应于自回归解码中的Greedy Search（贪心搜索），如果要进行随机采样，需要补噪声项： $x_{t-1}=\frac{1}{\alpha_t}(x_t-\beta_t\epsilon_{\theta(x_t,t)})+\sigma_tz,z\sim N(0,I) \tag{20}$
一般的让 $\sigma_t=\beta_t$ ，即正向和反向的方差保持同步。
这个采样过程跟传统扩散模型的朗之万采样不一样的地方在于：DDPM的采样每次都从一个随机噪声出发，需要重复迭代T步来得到一个样本输出；朗之万采样则是从任意一个点出发，反复迭代无限步，理论上这个迭代无限步的过程中，就把所有数据样本都被生成过了。所以两者除了形式相似外，实质上是两个截然不同的模型。
从这个生成过程中，我们也可以感觉到它其实跟Seq2Seq的解码过程是一样的，都是串联式的自回归生成，所以生成速度是一个瓶颈，DDPM设了 $T = 1000$ ，意味着每生成一个图片，需要将 $\epsilon_{\theta(x_t,t)}$ 反复执行 $1000$ 次，因此DDPM的一大缺点就是采样速度慢，后面会有提高DDPM的采样速度
图片生成+自回归模型+很慢，但DDPM不一样，它通过“拆楼”的方式重新定义了一个自回归方向，而对于所有的像素来说则都是平权的、无偏的，所以减少了Inductive Bias的影响，从而提升了效果。
此外，DDPM生成的迭代步数是固定的 $T$

6.超参的设置

DDPM中， $T = 1000$ ，为什么要设置这么大的 $T$ ？另一边，对于 $\alpha_t$ 的选择，论文里是这样的： $\alpha_t=\sqrt{1-\frac{0.02t}{T}}$
这是一个单调递减的函数，那为什么要选择单调递减的 $\alpha_t$ 呢？
其实这两个问题有着相近的答案，跟具体的数据背景有关。简单起见，在重构（建楼）的时候我们用了欧氏距离 $||x_{t-1}-\mu(x_t)||^2$ 作为损失函数，而一般DDPM做图片生成，欧氏距离并不好（在VAE中就是欧氏距离来重构，往往得到模糊的结果，除非输入输出的两张图片非常接近才能得到比较清晰的结果），所以选择尽可能大的 $T$ （这样 $\alpha_t$ 减少的慢），正是为了使得输入输出尽可能相近，减少欧氏距离带来的模糊问题。
选择单调递减的 $\alpha_t$ 也有类似的考虑，当 $t$ 比较小时， $x_t$ 还比较接近真实图片，所以我们要缩小 $x_{t-1}$ 和 $x_t$ 的差距，以便更适用欧氏距离 $\|x_{t-1}-\mu(x_t)\|^2$ ，因此要用较大的 $\alpha_t$ ；当 $t$ 比较大时， $x_t$ 已经比较接近纯噪声了，噪声用欧式距离无妨，所以可以稍微增大 $x_{t−1}$ 与 $x_t$ 的差距，即可以用较小的 $\alpha_t$ 。
那么可不可以一直用较大的 $\alpha_t$ 呢？
可以是可以，但是要增大 $T$ 。注意在 $(4)$ 式时，我们说过应该有 $\bar\alpha_T≈0$ ，而我们可以直接估算 $\log \bar\alpha_T=\sum_{t=1}^T\log \alpha_t=\frac{1}{2}\sum_{t=1}^T\log\left(1-\frac{0.02t}{T}\right)<\frac{1}{2}\sum_{t=1}^T\left(1-\frac{0.02t}{T}\right)=-0.005(T+1)$
- 这里用到高数中最简单的放缩( $l n x < x$ )
代入 $T = 1000$ 大致是 $\bar\alpha_T ≈ e^{-5}$ ，这个其实就刚好达到 $\approx 0$ 的标准。
所以从头到尾都用较大的 $\alpha_t$ ，那么必然要更大得到 $T$ 才能使得 $\bar\alpha_T ≈ 0$
建楼模型里 $\epsilon_{\theta(\bar\alpha_t x_0+\bar\beta_t\varepsilon ,t)}$ 中，我们在输入显式地写出了 $t$ ，这是因为原则上不同的t处理的是不同层次的对象，所以应该用不同的重构模型，即应该有 $T$ 个不同的重构模型才对，于是我们共享了所有重构模型的参数，将t作为条件传入， $t$ 是转换成（通过Transformer）位置编码后，直接加到残差模块上去的。