Denoising Diffusion Probabilistic Models (DDPM) 背景部分公式解析

原创

已于 2025-08-23 21:50:26 修改 · 944 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

于 2025-08-23 13:55:10 首次发布

Denoising Diffusion Probabilistic Models (DDPM) 背景部分公式解析

1 反向过程 (Reverse Process) 的联合分布定义

$p_{\theta}(\mathbf{x}_{0:T}) := p(\mathbf{x}_{T})\prod_{t=1}^{T} p_{\theta}(\mathbf{x}_{t-1}\!\mid\!\mathbf{x}_{t}), \quad p_{\theta}(\mathbf{x}_{t-1}\!\mid\!\mathbf{x}_{t}) := \mathcal{N}(\mathbf{x}_{t-1}; \boldsymbol{\mu}_{\theta}(\mathbf{x}_{t}, t), \Sigma_{\theta}(\mathbf{x}_{t}, t)) \tag{1}$

1.1 简介

这个公式定义了扩散模型的生成过程（或称反向过程）。它是一个马尔可夫链，从纯噪声 $\mathbf{x}_T$ 开始，逐步去噪，最终生成数据 $\mathbf{x}_0$ 。

$p_{\theta}(\mathbf{x}_{0:T})$ ：这是从噪声 $\mathbf{x}_T$ 到数据 $\mathbf{x}_0$ 的整个序列的联合概率分布。
$p(\mathbf{x}_{T}) = \mathcal{N}(\mathbf{x}_{T}; \mathbf{0}, \mathbf{I})$ ：这是链的起点。它被固定为标准高斯分布（均值为 $0$ ，方差为 $I$ ）。生成就是从这样一个简单的分布中采样一个随机噪声开始的。
$\prod_{t=1}^{T} p_{\theta}(\mathbf{x}_{t-1}\!\mid\!\mathbf{x}_{t})$ ：联合分布被分解为一系列条件概率的乘积。这体现了马尔可夫性质：每一步 $\mathbf{x}_{t-1}$ 的生成只依赖于上一步的状态 $\mathbf{x}_{t}$ ，而不依赖于更早的历史。
$p_{\theta}(\mathbf{x}_{t-1}\!\mid\!\mathbf{x}_{t}) := \mathcal{N}(\mathbf{x}_{t-1}; \boldsymbol{\mu}_{\theta}(\mathbf{x}_{t}, t), \Sigma_{\theta}(\mathbf{x}_{t}, t))$ ：这是反向过程的核心。每一步的转移核 (transition kernel) 是一个高斯分布。
- $\boldsymbol{\mu}_{\theta}(\mathbf{x}_{t}, t)$ ：高斯分布的均值。它是一个由神经网络（参数为 $\theta$ ）预测的函数，输入是当前噪声图像 $\mathbf{x}_t$ 和当前时间步 $t$ 。
- $\Sigma_{\theta}(\mathbf{x}_{t}, t)$ ：高斯分布的方差。它同样可以由神经网络预测，但在后续的 DDPM 中，为了稳定性和简单性，通常被设置为与时间步 $t$ 相关的常数。

1.2 分析

这个定义来源于最初的扩散模型工作。其核心思想是定义一个生成链，学习如何逐步从噪声中重构数据。这个公式是模型的生成蓝图。它描述了“如何从噪声生成图片”的完整过程。然而，这个蓝图最初是无效的，因为神经网络 $\boldsymbol{\mu}_{\theta}$ 和 $\Sigma_{\theta}$ 还不知道如何正确地去噪。训练模型的目的就是学习这两个函数，使得整个反向过程能够从噪声生成真实的数据分布。

2 前向过程 (Forward Process) 的固定分布

$q(\mathbf{x}_{1:T} \!\mid\! \mathbf{x}_{0}) := \prod_{t=1}^{T} q(\mathbf{x}_{t} \!\mid\! \mathbf{x}_{t-1}), \qquad q(\mathbf{x}_{t} \!\mid\! \mathbf{x}_{t-1}) := \mathcal{N}\bigl(\mathbf{x}_{t};\, \sqrt{1-\beta_{t}}\,\mathbf{x}_{t-1},\, \beta_{t}\mathbf{I}\bigr) \tag{2}$

2.1 简介

这个公式定义了前向过程（或称扩散过程）。这是一个固定的（非学习的）、预先定义好的过程，它逐步向数据 $\mathbf{x}_0$ 添加高斯噪声，直到其变成纯噪声 $\mathbf{x}_T$ 。

$q(\mathbf{x}_{1:T} \!\mid\! \mathbf{x}_{0})$ ：这是在给定原始数据 $\mathbf{x}_0$ 的条件下，所有中间噪声状态 $\mathbf{x}_1, \dots, \mathbf{x}_T$ 的联合分布。
$\prod_{t=1}^{T} q(\mathbf{x}_{t} \!\mid\! \mathbf{x}_{t-1})$