生成式AI(3):去噪扩散模型DDPM详解

最新推荐文章于 2025-05-21 20:02:06 发布

tilblackout

最新推荐文章于 2025-05-21 20:02:06 发布

阅读量1.3k

点赞数 25

CC 4.0 BY-SA版权

分类专栏： Machine Learning 文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/tilblackout/article/details/146999550

Machine Learning 专栏收录该内容

45 篇文章

订阅专栏

近年来，扩散模型(Diffusion Models)在图像生成任务中展现出了极高的性能，逐渐成为继 GANs 和 VAEs 之后的一类重要生成模型。特别是在高分辨率图像合成、图像编辑和音频生成等领域，扩散模型因其稳定性强、生成质量高而备受关注。去噪扩散模型(Denoising Diffusion Probabilistic Models, DDPM)是扩散模型的代表性方法，其核心思想是将一个图像逐步添加噪声变成纯噪声，再通过一个反向过程一步步去噪还原原始图像。

扩散模型的关键在于两个过程：前向扩散过程 和 反向去噪过程，它们通过构建可学习的马尔可夫链，实现从随机噪声中生成高质量数据。

1 介绍

扩散模型是一种生成模型，其特点包括：

一个固定的前向过程 $q$ ，它使用马尔可夫链在 $1.. T$ 个时间步中逐渐向输入图像添加噪声。当 $\to \infty$ 时，图像最终变成纯噪声。
一个反向过程 $p_\theta$ ，它从一张纯高斯噪声图像开始，学习在每个时间步移除噪声的方式，逐步还原出原始输入图像。

在这里插入图片描述

第一步：前向过程（加噪声）

在每一个固定的前向过程步骤中，稍微加噪后的图像 $x_t$ 会基于前一步图像 $x_{t-1}$ 被计算出来。这个更嘈杂的新图像 $x_t$ 是从条件分布 $q(x_t|x_{t-1})$ 中采样得到的。假设我们有一张清晰的猫的照片 $x_0$ ，然后每隔一小步，就往这张图里加一点点噪声：
$x_1 \sim q(x_1|x_0),\quad x_2 \sim q(x_2|x_1),\quad \dots,\quad x_T \sim q(x_T|x_{T-1})$

加到最后 $x_T$ 就完全变成一张看不出图像内容的纯高斯噪声。

第二步：反向过程（去噪声）

在每一个学习到的反向过程步骤中，稍微去噪后的图像 $x_{t-1}$ 会根据当前较嘈杂的图像 $x_t$ 被计算出来。这个新的去噪图像 $x_{t-1}$ 是从条件分布 $p_\theta(x_{t-1}|x_t)$ 中采样的。

现在我们从那张纯噪声图 $x_T$ 开始，尝试一步一步“还原”出原图 $x_0$ ，也就是：

$x_{T-1} \sim p_\theta(x_{T-1}|x_T),\quad x_{T-2} \sim p_\theta(x_{T-2}|x_{T-1}),\quad \dots,\quad x_0 \sim p_\theta(x_0|x_1)$

这个过程是用神经网络 $p_\theta$ 来学的，目标就是一步步预测“如何去掉噪声”。

在每一步中添加和移除的噪声量都非常小，因此每一步的转移分布 $q(x_t|x_{t-1})$ 和 $p_\theta(x_{t-1}|x_t)$ 都可以被视为条件高斯分布，这使得使用神经网络进行训练变得更加容易。

高斯分布就是“变化集中在中间、偶尔偏一点”的一种随机方式，非常适合描述扩散模型中逐步加噪/去噪的过程，也让训练更简单、更稳定。

为什么每一步使用高斯分布？

因为每一步添加或移除的噪声量都非常小，我们可以假设当前图像只和前一步图像差一点点。这种“微小变化”可以很好地用高斯分布来建模：

$q(x_t|x_{t-1})$ 表示“添加一点噪声”；
$p_\theta(x_{t-1}|x_t)$ 表示“去掉一点噪声”。

这样一来，整个模型就可以被训练成一个“逐步去噪器”，最终从纯噪声恢复出真实图像。

2 前向扩散过程

2.1 数学原理

在这里插入图片描述

前向过程会在原始图像 $x_0$ 上逐步添加少量的高斯噪声，持续 $t = 1, ..., T$ 个时间步。在给定 $x_{t-1}$ 的前提下生成 $x_t$ 的分布为：

$q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t} x_{t-1}, \beta_t \mathbf{I})$

其中每一步添加的噪声的方差 $\beta_t$ 是由一个“方差调度表”确定的，其中 $\beta_1 < \beta_2 < \dots < \beta_T < 1$ 。

方差调度表是一组预定义的 $\beta_t$ 值，决定了扩散过程中每一步添加多少噪声，是整个扩散模型的“噪声时间计划”。

稳定训练：如果一开始就加很多噪声，图像马上就毁了，训练没法进行；
平滑过渡：让整个模糊过程是逐渐的，便于神经网络去学习“逆过程”；
可控性强：我们可以尝试不同的 $\beta_t$ 曲线，比如线性增加、余弦曲线、固定值等，调节生成质量和速度。

接下来我们从这个分布中采样一张图像 $x_t$ ，即从 $x_{t-1}$ 得到下一张更嘈杂的图像。为此，我们使用重参数化技巧：

$x_t = \sqrt{1 - \beta_t} x_{t-1} + \sqrt{\beta_t} \epsilon$

$x_t$ 的均值为 $\sqrt{1 - \beta_t} x_{t-1}$ ，这个缩放因子 $\sqrt{1 - \beta_t}$ 会把前一张图像缩小，使得添加噪声后整体方差保持一致。
添加的噪声的方差是 $\beta_t$ ，因此标准差是 $\sqrt{\beta_t}$ 。
$\epsilon$ 是从 $\mathcal{N}(0, \mathbf{I})$ 中采样得到的噪声。

第一项 $\sqrt{1 - \beta_t} x_{t-1}$ 表示我们保留上一张图像的一部分内容；
第二项 $\sqrt{\beta_t} \epsilon$ 表示我们加了一点新的随机噪声；
每一步只变动一点点，这样才方便后面“反过来”去噪。

在这里插入图片描述

上图展示了一次前向步骤的计算过程，完整的前向过程 $q(x_{1:T}|x_0)$ 定义如下：

$q(x_{1:T}|x_0) = q(x_T|x_{T-1})q(x_{T-1}|x_{T-2}) \dots q(x_2|x_1)q(x_1|x_0)$

也可以简写为：

$q(x_{1:T}|x_0) = \prod_{t=1}^T q(x_t|x_{t-1})$

2.2 方差调度

我们回顾一下每一步扩散的加噪公式是：
$x_t = \sqrt{1 - \beta_t} x_{t-1} + \sqrt{\beta_t} \epsilon$

$\beta_t$ 越大，加进去的噪声越多；
$\beta_t$ 越小，保留的图像信息越多。

方差调度(Variance Schedule)决定了在每个时间步添加的噪声的方差。这一方差在 $t = 1, ..., T$ 的整个扩散过程中并不是固定的，而是满足如下关系：
$\beta_1 < \beta_2 < ... < \beta_{T-1} < \beta_T < 1$
常见的调度方式包括线性调度(linear)、余弦调度(cosine)、S型调度(sigmoid)以及二次调度(quadratic)等。

原始的 DDPM 论文中提出了线性调度，并在常数调度(constant)、线性调度和二次调度中，选取其为性能最优者。作者设置了 $\beta_1 = 10^{-4}$ 和 $\beta_T = 0.02$ 。

余弦调度相比线性调度更加“平缓”地添加噪声，使得生成图像中前期保留更多清晰信息，效果更自然。下面左图显示了 $t = 1$ 到 $t = 1000$ 的线性方差调度图；右图显示了相同范围内的余弦方差调度图。

在这里插入图片描述

线性调度：

$\beta_t$ 从小到大线性增加，比如从 $0.0001$ 到 $0.02$ ，图像会慢慢变模糊，但后期突然变得很糊。

优点：简单；
缺点：后期图像快速崩坏。

余弦调度：

$\beta_t$ 的增加速度在前期很慢，后期才快（像余弦函数那样缓缓上升）。图像更长时间保持清晰，过渡更平滑。

优点：生成图像更自然；
缺点：计算上略复杂。

为什么调度方式会影响效果？

如果节奏突然加快（线性调度），图像会很快失真；
如果节奏平稳（余弦调度），图像逐渐模糊，神经网络更容易学会如何“反过来恢复”。

如下图所示，上排显示了使用线性调度进行前向扩散的各个阶段，下排则为余弦调度。可以观察到余弦调度下的图像逐渐加噪更平滑，而线性调度后期图像接近纯噪声。

在这里插入图片描述

下图展示了扩散过程中的前四个步骤。由于 $\beta_t$ 随着 $t$ 增大而增大，噪声所占比例也逐步增加：几乎全部是从采样的噪声中构建出来的图像。与此同时，前一步图像所占的比例（对比度）则逐渐减小。

在这里插入图片描述

2.3 实际的前向步骤

在实践中，前向过程并不需要逐步地计算 $x_1, x_2, \dots, x_t$ 。由于方差调度是固定的，我们只需要已知调度表和随机噪声 $\epsilon \sim \mathcal{N}(0, \mathbf{I})$ ，就可以直接计算任意时刻的 $x_t$ 。

我们知道：

$x_t = \sqrt{1 - \beta_t} x_{t-1} + \sqrt{\beta_t} \epsilon_{t-1}$

其中 $\epsilon_t \sim \mathcal{N}(0, \mathbf{I})$ 。

令 $\alpha_t = 1 - \beta_t$ ，以及 $\bar{\alpha}_t = \prod_{s=1}^{t} \alpha_s$ 。

我们可以将 $\alpha_t$ 代入上式，得到：

$x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \epsilon_{t-1}$

我们也知道：

$\mathbf{x}_{t-1} = \sqrt{\alpha_{t-1}} \mathbf{x}_{t-2} + \sqrt{1 - \alpha_{t-1}} \epsilon_{t-2}$

将 $x_{t-1}$ 代入 $x_t$ 的表达式中，得：

$\begin{aligned} \mathbf{x}_t &= \sqrt{\alpha_t} \left( \sqrt{\alpha_{t-1}} \mathbf{x}_{t-2} + \sqrt{1 - \alpha_{t-1}} \epsilon_{t-2} \right) + \sqrt{1 - \alpha_t} \epsilon_{t-1} \\ &= \sqrt{\alpha_t} \sqrt{\alpha_{t-1}} \mathbf{x}_{t-2} + \sqrt{\alpha_t} \sqrt{1 - \alpha_{t-1}} \epsilon_{t-2} + \sqrt{1 - \alpha_t} \epsilon_{t-1} \\ &= \sqrt{\alpha_t \alpha_{t-1}} \mathbf{x}_{t-2} + \sqrt{\alpha_t (1 - \alpha_{t-1})} \epsilon_{t-2} + \sqrt{1 - \alpha_t} \epsilon_{t-1} \end{aligned}$
回顾一下两个高斯分布随机变量相加的公式：如果 $\sim \mathcal{N}(\mu_X, \sigma_X^2)$ ， $\sim \mathcal{N}(\mu_Y, \sigma_Y^2)$ ，那么 $\sim \mathcal{N}(\mu_X + \mu_Y, \sigma_X^2 + \sigma_Y^2)$ 。

我们将 $\sqrt{\alpha_t (1 - \alpha_{t-1})} \epsilon_{t-2}$ 与 $\sqrt{1 - \alpha_t} \epsilon_{t-1}$ 合并得到一个新的高斯分布，其方差为：

$\alpha_t(1 - \alpha_{t-1}) + (1 - \alpha_t) = 1 - \alpha_t \alpha_{t-1}$

因此其标准差为 $\sqrt{1 - \alpha_t \alpha_{t-1}}$ ，合并得到的高斯项为：

$\sqrt{1 - \alpha_t \alpha_{t-1}} \epsilon'$

所以我们可以将 $x_t$ 重写为：

$x_t = \sqrt{\alpha_t \alpha_{t-1}} x_{t-2} + \sqrt{1 - \alpha_t \alpha_{t-1}} \epsilon', \quad \epsilon' \sim \mathcal{N}(0, \mathbf{I})$

我们可以继续将这个链式计算展开到 $x_{t-2}$ ， $x_{t-3}$ ，最终展开到 $x_0$ ：

$\mathbf{x}_t = \sqrt{\alpha_t \alpha_{t-1} \dots \alpha_1} \, \mathbf{x}_0 + \sqrt{1 - \alpha_t \alpha_{t-1} \dots \alpha_1} \, \epsilon_0' \\ \mathbf{x}_t = \sqrt{\bar{\alpha}_t} \, \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \, \epsilon$

因此，我们不需要从 $x_0 \to x_1 \to x_2 \dots$ 一步步计算 $x_t$ ，而是直接从 $x_0$ 生成任意时间步的 $x_t$ 。

3 反向去噪过程

3.1 原理

在反向过程中，我们从纯高斯噪声图像开始，并在每个时间步逐步移除噪声，最终还原出原始图像。在每一个时间步 $t$ ，我们需要根据当前图像 $\mathbf{x}_t$ 得到下一个更干净的图像 $\mathbf{x}_{t-1}$ 。

我们并不知道真实的分布 $q(\mathbf{x}_{t-1}|\mathbf{x}_t)$ ，因为这就需要我们知道所有图像的真实分布。

就像我们有一个模糊图像 $\mathbf{x}_t$ ，但并不知道它是从哪一张清晰图像 $\mathbf{x}_{t-1}$ 加噪得来的。如果我们能知道这个“反推路径”的分布，那就能一步步把噪声“反过来去掉”。但这个真实分布很难获取。

在这里插入图片描述

因此，我们希望用一个可学习的神经网络模型来近似这个真实分布，即：

$p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)$

其中 $\theta$ 表示模型参数。

反向过程的起点是纯噪声，因此我们规定：

$q(\mathbf{x}_T) = p_\theta(\mathbf{x}_T) = \mathcal{N}(\mathbf{x}_T; \mathbf{0}, \mathbf{I})$

也就是说：我们一开始给模型一个标准正态分布的随机图像 $\mathbf{x}_T$ ，然后一步步去噪出最终图像。

我们希望神经网络可以学习到每一步“去噪”的方式。由于每一步只添加/移除很少的噪声，我们可以将这个“去噪过程”视作高斯分布，其均值和方差由网络输出：

$p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t) = \mathcal{N}(\mathbf{x}_{t-1}; \mu_\theta(\mathbf{x}_t, t), \Sigma_\theta(\mathbf{x}_t, t))$

其中， $\mu_\theta(\mathbf{x}_t, t)$ 和 $\Sigma_\theta(\mathbf{x}_t, t)$ 分别是神经网络预测的均值和协方差。

通常我们把协方差矩阵简化为对角矩阵，是为了让模型只预测每个像素自己的不确定性，不考虑像素之间的联系，从而更高效、更稳定地建模去噪过程。

整个反向过程是从 $t = T$ 一步步推到 $t = 0$ ，所以可以写成联合分布形式：

$p_\theta(\mathbf{x}_{0:T}) := p(\mathbf{x}_T) \prod_{t=1}^{T} p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)$

反向过程是多个“单步去噪”的串联。每一步从 $\mathbf{x}_t \rightarrow \mathbf{x}_{t-1}$ ，由神经网络决定怎么移除噪声，最终从纯噪声一步步还原成清晰图像。

我们希望 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 能尽量贴近真实的后验分布 $q(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 。尽管这个真实分布本身不能直接获得，但在已知原始图像 $\mathbf{x}_0$ 时，我们可以准确计算这个条件分布：

$q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_{t-1}; \tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0), \tilde{\beta}_t \mathbf{I})$

虽然 $q(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 是未知的，但我们知道如何根据 $\mathbf{x}_0$ 和 $\mathbf{x}_t$ 推出 $q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0)$ ，这为我们提供了训练目标！

因此，接下来的目标就是求出 $\tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0)$ 和 $\tilde{\beta}_t$ ，从而构建出可监督学习的目标分布。

3.2 数学推导

首先回顾贝叶斯公式（Bayes’ Rule）：

$\frac{P(A, B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)}$

以及条件贝叶斯公式：

$\frac{P(A, B, C)}{P(B, C)} = \frac{P(B|A, C)P(A|C)P(C)}{P(B|C)P(C)} = \frac{P(B|A, C)P(A|C)}{P(B|C)}$

利用贝叶斯公式，我们可以得到：

$q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) = \frac{q(\mathbf{x}_t | \mathbf{x}_{t-1}, \mathbf{x}_0) \cdot q(\mathbf{x}_{t-1} | \mathbf{x}_0)}{q(\mathbf{x}_t | \mathbf{x}_0)}$

也就是说，我们可以把 $\mathbf{x}_t$ 给定的前一帧 $\mathbf{x}_{t-1}$ 的真实分布（在已知 $\mathbf{x}_0$ 的条件下），拆解成三个前向过程相关的分布项来重新组合。

根据我们在前向过程中的推导，我们已经知道以下几个分布：

$\begin{aligned} q(\mathbf{x}_t | \mathbf{x}_{t-1}, \mathbf{x}_0) &= q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1 - \beta_t} \, \mathbf{x}_{t-1}, \beta_t \mathbf{I}) \\\\ q(\mathbf{x}_{t-1} | \mathbf{x}_0) &= \mathcal{N}(\mathbf{x}_{t-1}; \sqrt{\bar{\alpha}_{t-1}} \, \mathbf{x}_0, (1 - \bar{\alpha}_{t-1}) \mathbf{I}) \\\\ q(\mathbf{x}_t | \mathbf{x}_0) &= \mathcal{N}(\mathbf{x}_t; \sqrt{\bar{\alpha}_t} \, \mathbf{x}_0, (1 - \bar{\alpha}_t) \mathbf{I}) \end{aligned}$

这些分布都源于我们前面提到的“从 $\mathbf{x}_0$ 一步加噪到 $\mathbf{x}_t$ ”的闭式表达式。

接下来我们回顾标准高斯分布的概率密度函数：

$\frac{1}{\sigma \sqrt{2\pi}} \exp\left( -\frac{1}{2} \left( \frac{x - \mu}{\sigma} \right)^2 \right)$

💬 对于我们来说，最重要的是其中的指数项 $\exp(-\frac{1}{2} (\cdot)^2)$ ，因为我们后面要比较的是多个高斯分布的指数形式。

所以我们可以将上述三个正态分布写为指数形式的比例：

$\begin{aligned} q(\mathbf{x}_t | \mathbf{x}_{t-1}, \mathbf{x}_0) &\propto \exp\left( -\frac{1}{2} \cdot \frac{ \left( \mathbf{x}_t - \sqrt{\alpha_t} \mathbf{x}_{t-1} \right)^2 }{ \beta_t } \right) \\\\ q(\mathbf{x}_{t-1} | \mathbf{x}_0) &\propto \exp\left( -\frac{1}{2} \cdot \frac{ \left( \mathbf{x}_{t-1} - \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_0 \right)^2 }{ 1 - \bar{\alpha}_{t-1} } \right) \\\\ q(\mathbf{x}_t | \mathbf{x}_0) &\propto \exp\left( -\frac{1}{2} \cdot \frac{ \left( \mathbf{x}_t - \sqrt{\bar{\alpha}_t} \mathbf{x}_0 \right)^2 }{ 1 - \bar{\alpha}_t } \right) \end{aligned}$

这些形式让我们可以把贝叶斯公式的分子、分母都用相似的指数形式表示，然后组合后再整理成一个新的高斯分布。

我们接下来将利用这些表达式重写 $q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0)$ ，从而推导出我们想要的均值 $\tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0)$ 和方差 $\tilde{\beta}_t$ 的具体表达。
$q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0) \propto \frac{exp\left(-\frac{1}{2} \frac{(\mathbf{x}_t - \sqrt{\bar{\alpha}_t}\mathbf{x}_0)^2}{1 - \bar{\alpha}_t}\right) exp\left(-\frac{1}{2} \frac{(\mathbf{x}_{t-1} - \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0)^2}{1 - \bar{\alpha}_{t-1}}\right)}{exp\left(-\frac{1}{2} \frac{(\mathbf{x}_t - \sqrt{\alpha_t}\mathbf{x}_{t-1})^2}{\beta_t}\right)} \\\\ = exp\left(-\frac{1}{2} \left( \frac{(\mathbf{x}_t - \sqrt{\alpha_t}\mathbf{x}_{t-1})^2}{\beta_t} + \frac{(\mathbf{x}_{t-1} - \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0)^2}{1 - \bar{\alpha}_{t-1}} - \frac{(\mathbf{x}_t - \sqrt{\bar{\alpha}_t}\mathbf{x}_0)^2}{1 - \bar{\alpha}_t} \right) \right)$

因为 $e^a e^b / e^c = e^{a + b - c}$ ，所以我们继续展开：

$\begin{aligned} &= \exp\left( -\frac{1}{2} \left( \frac{\mathbf{x}_t^2 - 2 \mathbf{x}_t \sqrt{\alpha_t} \mathbf{x}_{t-1} + \alpha_t \mathbf{x}_{t-1}^2}{\beta_t}+\frac{\mathbf{x}_{t-1}^2 - 2 \mathbf{x}_{t-1} \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_0 + \bar{\alpha}_{t-1} \mathbf{x}_0^2}{1 - \bar{\alpha}_{t-1}}-\frac{(\mathbf{x}_t - \sqrt{\bar{\alpha}_t} \mathbf{x}_0)^2}{1 - \bar{\alpha}_t} \right) \right) \end{aligned}$

展开各个二次项，合并 $\mathbf{x}_{t-1}^2$ 和 $\mathbf{x}_{t-1}$ 项：

$\begin{aligned} &= \exp\left( -\frac{1}{2} \left( \left( \frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}_{t-1}} \right) \mathbf{x}_{t-1}^2 -\left( \frac{2 \sqrt{\alpha_t} \mathbf{x}_t}{\beta_t} + \frac{2 \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_0}{1 - \bar{\alpha}_{t-1}} \right) \mathbf{x}_{t-1}+\frac{(\mathbf{x}_t - \sqrt{\bar{\alpha}_t} \mathbf{x}_0)^2}{1 - \bar{\alpha}_t} \right) \right) \end{aligned}$

将 $\mathbf{x}_{t-1}$ 相关项整理成平方形式：

$exp\left(\left( \frac{\mathbf{x}_{t-1} - \frac{\frac{\sqrt{\alpha_t}}{\beta_t} \mathbf{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1}}}{1 - \bar{\alpha}_{t-1}} \mathbf{x}_0}{\frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}_{t-1}}}}{\left( \sqrt{\frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}_{t-1}}} \right)^{-1}} \right)^2 \right)$

根据上述计算，我们最终可以写为：

$q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) \propto \exp\left(\frac{(\mathbf{x}_{t-1} - \tilde{\mu}_t(\mathbf{x}_t, \mathbf{x}_0))^2}{\tilde{\beta}_t} \right)$

根据高斯分布的形式，我们可以得到：

$\tilde{\beta}_t = \left( \frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}_{t-1}} \right)^{-1} = \frac{\beta_t (1 - \bar{\alpha}_{t-1})}{\alpha_t - \bar{\alpha}_t + \beta_t} = \frac{\beta_t (1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t}$
我们可以使用 $\tilde{\beta}_t$ 的值来计算 $\tilde{\mu}_t$ ：

$\tilde{\mu}_t(\mathbf{x}_t, \mathbf{x}_0) = \left( \frac{\sqrt{\alpha_t}}{\beta_t} \mathbf{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1}}}{1 - \bar{\alpha}_{t-1}} \mathbf{x}_0 \right) \Big/ \left( \frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}_{t-1}} \right)$

$\left( \frac{\sqrt{\alpha_t}}{\beta_t} \mathbf{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1}}}{1 - \bar{\alpha}_{t-1}} \mathbf{x}_0 \right) \left( \frac{\beta_t (1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t} \right)$

因为：
$\frac{1}{ \frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}_{t-1}} } = \frac{\beta_t (1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t}$

最终化简为：
$\tilde{\mu}_t(\mathbf{x}_t, \mathbf{x}_0) = \frac{\sqrt{\alpha_t} (1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t} \mathbf{x}_t + \frac{\beta_t \sqrt{\bar{\alpha}_{t-1}}}{1 - \bar{\alpha}_t} \mathbf{x}_0$

我们已知：

$\mathbf{x}_t = \sqrt{\bar{\alpha}_t} \, \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \, \epsilon_t$

我们可以将其变形为：

$\mathbf{x}_0 = \frac{1}{\sqrt{\bar{\alpha}_t}} \left( \mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t} \, \epsilon_t \right)$
我们可以将 $\mathbf{x}_0$ 表达式代入 $\tilde{\mu}_t$ 的公式中：

$\tilde{\mu}_t(\mathbf{x}_t, \mathbf{x}_0) = \frac{ \sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1}) }{1 - \bar{\alpha}_t} \mathbf{x}_t + \frac{ \beta_t \sqrt{ \bar{\alpha}_{t-1} } }{1 - \bar{\alpha}_t} \left( \frac{1}{\sqrt{\bar{\alpha}_t}} \left( \mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t} \, \epsilon_t \right) \right) \\\\ = \frac{ \sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1}) }{1 - \bar{\alpha}_t} \mathbf{x}_t + \frac{ \beta_t \sqrt{ \bar{\alpha}_{t-1} } }{1 - \bar{\alpha}_t} \cdot \frac{1}{\sqrt{{\alpha}_t\bar{\alpha}_{t-1}}} \left( \mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t} \, \epsilon_t \right)$

将 $\sqrt{\bar{\alpha}_t}$ 展开为 $\sqrt{\alpha_t} \cdot \sqrt{ \bar{\alpha}_{t-1} }$ ：
$\frac{ \sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1}) }{1 - \bar{\alpha}_t} \mathbf{x}_t + \frac{(1 - \alpha_t)}{(1 - \bar{\alpha}_t)\sqrt{\alpha_t}} \left( \mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t} \, \epsilon_t \right)$

将 $\beta_t$ 替换为 $\alpha_t$ ，分子分母都使用 $\sqrt{\alpha_t}$ 统一：
$\frac{ \alpha_t (1 - \bar{\alpha}_{t-1}) }{ \sqrt{\alpha_t}(1 - \bar{\alpha}_t) } \mathbf{x}_t + \frac{ (1 - \alpha_t) }{ (1 - \bar{\alpha}_t)\sqrt{\alpha_t} } \mathbf{x}_t - \frac{ (1 - \alpha_t) }{ (1 - \bar{\alpha}_t)\sqrt{\alpha_t} } \sqrt{1 - \bar{\alpha}_t} \, \epsilon_t$

合并同类项（两个 $\mathbf{x}_t$ 项）：
$\frac{ (\alpha_t - \alpha_t + 1) }{ \sqrt{\alpha_t}(1 - \bar{\alpha}_t) } \mathbf{x}_t - \frac{ (1 - \alpha_t) }{ (1 - \bar{\alpha}_t)\sqrt{\alpha_t} } \sqrt{1 - \bar{\alpha}_t} \, \epsilon_t$

化简得：

$\frac{1}{\sqrt{\alpha_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_t \right)$

从上式可以看出， $\tilde{\mu}_t$ 不再依赖于 $\mathbf{x}_0$ ，它只依赖于当前图像 $\mathbf{x}_t$ 和噪声 $\epsilon_t \sim \mathcal{N}(0, \mathbf{I})$ 。

因此我们可以将 $q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0)$ 表达为如下形式：

$q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_{t-1}; \tilde{\mu}_t(\mathbf{x}_t, \mathbf{x}_0), \tilde{\beta}_t \mathbf{I})$

其中：
$\tilde{\mu}_t = \frac{1}{\sqrt{\alpha_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_t \right) \\\\ \tilde{\beta}_t = \frac{ \beta_t (1 - \bar{\alpha}_{t-1}) }{1 - \bar{\alpha}_t}$

我们可以对学习得到的分布 $p_\theta$ 使用类似的公式：

$p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t) = \mathcal{N}(\mathbf{x}_{t-1}; \mu_\theta(\mathbf{x}_t, t), \Sigma_\theta(\mathbf{x}_t, t))$

其中：

$\mu_\theta = \frac{1}{\sqrt{\alpha_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \, \epsilon_\theta(\mathbf{x}_t, t) \right)$

其中 $\epsilon_\theta$ 是模型预测出的噪声，用于从 $\mathbf{x}_{t-1}$ 得到 $\mathbf{x}_t$ 。

对于方差部分， $\Sigma_\theta = \beta_t \mathbf{I}$ 和 $\Sigma_\theta = \tilde{\beta}_t \mathbf{I}$ 都可以使用。实际中，它们的效果差异不大。

为了从 $\mathbf{x}_t$ 得到 $\mathbf{x}_{t-1}$ ，我们可以将该分布转换为如下形式的公式：

$\mathbf{x}_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \, \epsilon_\theta \right) + \frac{\beta_t (1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t} \mathbf{z}$

其中 $\epsilon_\theta$ 是在时间步 $t$ 模型预测的噪声， $\mathbf{z} \sim \mathcal{N}(0, \mathbf{I})$ 。这个计算过程会用于采样阶段。

4 理解扩散模型

理解扩散模型最关键的一点是：我们不是在凭空创造图像，而是在构造一个可以正着加噪、反着去噪的数学过程，这个过程必须足够规则和可控，才能被神经网络有效学习。

前向扩散：一个高斯模糊的马尔可夫链

我们可以把前向过程想象成一个马尔可夫链加模糊滤镜的过程。一开始我们有原图 $x_0$ ，每一步我们都往图像里加一点高斯噪声，像是给图像盖上一层模糊面纱：

每一步的操作是： $x_t = \sqrt{1 - \beta_t} x_{t-1} + \sqrt{\beta_t} \epsilon$ ；
$\epsilon$ 是从标准正态分布中采样的纯随机噪声；
随着 $t$ 增大，图像逐渐失真，直到变成几乎纯噪声的 $x_T$ 。

这个过程之所以选用高斯分布，是因为它具有非常好的封闭性：一连串高斯扰动的组合，仍然是高斯分布，这让我们能推导出从任意 $x_0$ 到 $x_t$ 的直接表达式：
$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon$
这意味着我们可以跳过中间所有步骤，直接计算任意时间步的图像结果，这是模型训练中非常重要的技巧。

反向扩散：从模糊图像中推测“它曾经是什么”

如果前向是加模糊，反向就是猜清晰：已知现在的图像 $x_t$ 是模糊的，我们要推测它最有可能来自哪一张更清晰的图 $x_{t-1}$ 。

关键在于：由于我们知道加噪是高斯操作，我们可以精确推导出 $q(x_{t-1} | x_t, x_0)$ 的真实形式 —— 它仍然是一个高斯分布，并且我们可以计算出它的均值和方差。这一点很重要，它让我们可以用一个神经网络来学习如何从 $x_t$ 预测出其中的噪声成分 $\epsilon_\theta(x_t, t)$ ，从而近似得到 $x_{t-1}$ 的分布。最终我们使用下面这个公式从 $x_t$ 采样出 $x_{t-1}$ ：
$x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right) + \sigma_t z$
其中 $z$ 是标准高斯噪声， $\sigma_t$ 控制采样过程的“模糊度”。这样，模型就能一步步把图像从“全是噪声”的 $x_T$ 还原成我们想要的 $x_0$ 。

5 损失函数与变分下界

扩散模型的训练目标是最大化图像的生成概率 $\log p_\theta(\mathbf{x}_0)$ 。由于这个目标难以直接优化，DDPM 使用了一个更容易处理的替代目标：变分下界(Variational Lower Bound, VLB)。我们通过最小化其上界，即负对数似然的变分下界来训练模型。

$\log p_\theta(\mathbf{x}_0) \geq \log p_\theta(\mathbf{x}_0) - D_{\text{KL}}(q(\mathbf{x}_{1:T}|\mathbf{x}_0) \| p_\theta(\mathbf{x}_{1:T}|\mathbf{x}_0))$

其中， $q(\mathbf{x}_{1:T}|\mathbf{x}_0)$ 是前向加噪过程， $p_\theta(\mathbf{x}_{1:T}|\mathbf{x}_0)$ 是模型学习到的反向去噪过程。我们希望模型能够逐步还原出接近真实图像的数据。

KL 散度（Kullback-Leibler divergence）是衡量两个概率分布差异的指标，它的值总是大于等于 0，因此右侧始终小于等于左侧。

基于这一目标，可以推导出以下损失函数(推导过程略)：

$\mathbb{E}[-\log p_\theta(\mathbf{x}_0)] \leq \mathbb{E}_q \left[ D_{\text{KL}}(q(\mathbf{x}_T|\mathbf{x}_0) \| q(\mathbf{x}_T)) + \sum_{t=2}^{T} D_{\text{KL}}(q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0) \| p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)) - \log p_\theta(\mathbf{x}_0|\mathbf{x}_1) \right] = L$

这个损失函数由三部分组成：

重建误差项（从最后一步还原图像）：
$L_0 = \log p_\theta(\mathbf{x}_0|\mathbf{x}_1)$
初始噪声项（衡量 $x_T$ 是否接近标准高斯）：
$L_T = D_{\text{KL}}(q(\mathbf{x}_T|\mathbf{x}_0) \| q(\mathbf{x}_T))$
去噪拟合项（每一步都需要尽可能复原干净）：
$L_{t-1} = D_{\text{KL}}(q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0) \| p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t))$

实际训练中，通常只保留中间每一步的去噪损失项，并将其简化为均方误差(MSE)来计算，效率更高、收敛更稳定。

6 总结

扩散模型的魅力就在于它建立了一个结构清晰、数学上对称的生成框架：先用一条固定的马尔可夫链逐步将图像加噪到纯高斯噪声，然后训练一个神经网络去模拟这条链的反向过程，逐步预测和去除每一步的噪声成分。由于前向过程是高斯结构，我们不仅可以快速采样任意时间步的图像，还能解析地推导出真实的后验分布，使模型能够以“预测噪声”的形式高效学习。最终，这种从纯随机中逐步“清晰化”的方式，不仅稳定、可控，而且生成质量极高，成为当前最强大的生成建模方法之一。