DDPM扩散模型数学推导

最新推荐文章于 2025-06-16 20:57:35 发布

ShadyPi

最新推荐文章于 2025-06-16 20:57:35 发布

阅读量1.1k

点赞数 7

CC 4.0 BY-SA版权

分类专栏： AIGC 文章标签： AIGC

本文链接：https://blog.youkuaiyun.com/ShadyPi/article/details/137431308

AIGC 专栏收录该内容

4 篇文章

订阅专栏

文章探讨了在原始数据上添加高斯噪声后的扩散过程，通过正向和逆向传播的数学描述，展示了如何利用贝叶斯公式和神经网络预测噪声项，实现从最终噪声到初始数据的反向推进。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

扩散过程

$x_0\rightarrow x_1 \rightarrow x_2 \rightarrow\cdots\rightarrow x_N \sim N(0,I)$

在原始数据分布上添加高斯噪声，使之在最后成为一个纯噪声。
$\alpha_t = 1-\beta_t$

扩散过程中 $β\beta$ 越来越大， $α\alpha$ 越来越小。

加噪公式：
$x_t = \sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}\epsilon_t$
其中 $ϵ∼N(0,1)\epsilon\sim N(0,1)$ ，噪声参数增大使得在扩散过程中的不同步骤间相对的扩散幅度一致。

对于 $x_{t-1}$ 有：
$x_{t-1}=\sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_{t-1}}\epsilon_{t-1}$
代入上式得：
$x_t = \sqrt{\alpha_t\alpha_{t-1}}x_{t-2}+\sqrt{\alpha_t(1-\alpha_{t-1})}\epsilon_{t-1}+\sqrt{1-\alpha_t}\epsilon_t$
这里有两个正态分布 $ϵt,ϵt−1\epsilon_t,\epsilon_{t-1}$ ，要对他们的结果进行求和，可以使用卷积，当然也可以直接根据正态分布求和的性质，可知求和后的方差为之前两个方差之和：
$x_t = \sqrt{\alpha_t\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_t\alpha_{t-1}}\epsilon$
不断向后迭代代入，可得：
$x_t = \sqrt{\prod_{i=0}^{t}\alpha_i}x_0+\sqrt{1-\prod_{i=0}^{t}\alpha_i}\epsilon$ 这里 $ϵ\epsilon$ 是另一个新的服从 $N(0,1)\mathcal{N(0,1)}$ 的分布，记 $α‾t=∏i=0tαi\overline{\alpha}_t=\prod_{i=0}^{t}\alpha_i$ ，正向过程的表达式可写为
$x_t = \sqrt{\overline{\alpha}_t}x_0+\sqrt{1-\overline{\alpha}_t}\epsilon$

逆向过程

要倒推的话，根据贝叶斯公式：
$P(x_{t-1}|x_t) = \frac{P(x_t|x_{t-1})P(x_{t-1})}{P(x_t)}$ 写的更完整一点，加上given $x_0$ ，得到
$P(x_{t-1}|x_t, x_0) = \frac{P(x_t|x_{t-1},x_0)P(x_{t-1}|x_0)}{P(x_t|x_0)}$ 这三个概率可以分别替换成其属于的正态分布：
$P(x_t|x_{t-1},x_0) = \sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}\epsilon_t\sim\mathcal{N}(\sqrt{\alpha_t}x_{t-1},1-\alpha_t)\\ P(x_{t-1}|x_0) = \sqrt{\overline{\alpha}}_{t-1}x_{0}+\sqrt{1-\overline{\alpha}_{t-1}}\epsilon\sim\mathcal{N}(\sqrt{\overline{\alpha}}_{t-1}x_{0},1-\overline{\alpha}_{t-1})\\ P(x_{t}|x_0) = \sqrt{\overline{\alpha}}_{t}x_{0}+\sqrt{1-\overline{\alpha}_{t}}\epsilon\sim\mathcal{N}(\sqrt{\overline{\alpha}}_{t}x_{0},1-\overline{\alpha}_{t})\\$
将这三个分布带入贝叶斯公式进行计算化简，得到 $P(x_{t-1}|x_t,x_0)$ 满足的分布
$P(x_{t-1}|x_t,x_0)\sim\mathcal{N}(\frac{\sqrt{a_t}(1-\overline{a}_{t-1})}{1-\overline{a}_t}x_t+\frac{\sqrt{a_{t-1}}(1-\overline{a}_{t})}{1-\overline{a}_t}x_0, (\frac{\sqrt{1-a_t}\sqrt{1-\overline{a}_{t-1}}}{\sqrt{1-\overline{a}_t}})^2)$ 同时，将 $x_0$ 由上面的公式 $xt=α‾tx0+1−α‾tϵx_t = \sqrt{\overline{\alpha}_t}x_0+\sqrt{1-\overline{\alpha}_t}\epsilon$ 反解带入，得到
$P(x_{t-1}|x_t,x_0)\sim\mathcal{N}(\frac{\sqrt{a_t}(1-\overline{a}_{t-1})}{1-\overline{a}_t}x_t+\frac{\sqrt{a_{t-1}}(1-\overline{a}_{t})}{1-\overline{a}_t}\times\frac{x_t-\sqrt{1-\overline{a}_t}\times\epsilon}{\sqrt{\overline{a}_t}}, (\frac{\sqrt{1-a_t}\sqrt{1-\overline{a}_{t-1}}}{\sqrt{1-\overline{a}_t}})^2)$
这里面只有从 $x_0$ 到 $x_t$ 添加的噪声 $ϵ\epsilon$ 是未知，如果我们使用神经网络来预测这里添加的 $ϵ\epsilon$ 是什么，就可以得到 $x_{t-1}$ 遵循的正态分布，再从该分布中进行一次采样，即可得到 $x_{t-1}$ ，如此循环以上过程，即可不断倒退到最开始的图片 $x_0$ 。