去噪扩散模型相关理论第一部分变分自编码器VAE

最新推荐文章于 2025-11-26 15:49:07 发布

原创

最新推荐文章于 2025-11-26 15:49:07 发布 · 985 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

因为内容很重要，本次内容会有点长，分成多个部分逐步推理DDPM的相关理论。

第一部分：DDPM的基础知识。主要内容包括ELBO，VAE。
第二部分：多层VAE及DDPM。该部分记录如何从DDPM的基础知识搭建起DDPM。
第三部分：DDPM实例与伪代码。之后我们再讲解其他种类的扩散模型。因此本节先从DDPM的基础知识讲起。该内容单看与DDPM无任何关系，是很早以前的卷积神经网络都在用的基础理论，但为了DDPM的流程推导需要。

去噪扩散概率模型（Denoising Diffusion Probabilistic Model，简称DDPM）是一种强大的生成模型，能够生成高质量的图像、音频以及其他类型的数据。其工作原理是模拟数据样本在噪声干扰下逐渐退化的过程，并在此基础上学习如何逆转这一退化过程，从而生成新的、无噪声的数据样本。DDPM的核心机制包括两个阶段：首先是加噪过程，通过一系列扩散步骤将干净的数据逐步添加噪声；其次是去噪过程，从噪声数据中逐步恢复出干净的数据。其中，去噪过程尤为重要，它实现了从初始的纯噪声向图像、音频或其他类型数据的转变，这也是生成数据的核心环节。我们通常将这一过程称为“去噪过程”或“采样过程”，不过“采样过程”更多地用于描述模型生成数据的最终阶段，而“去噪过程”则具有更广泛的适用性。

如果以雕塑为例，可以更直观地理解这一过程。从一块未经雕琢的原始石材（类似于初始的纯噪声，原始、随机且无特征）雕刻成精美的雕塑作品（对应生成的数据）的过程，可以类比为扩散模型的去噪过程；而从精美的雕塑作品还原为原始石材的过程（虽然在现实中难以实现，但在模型中是可行的），则可以类比为扩散模型的加噪过程，下图是我用AI生成的扩散模型生成图片原理比喻。

1.1 变分自编码器VAE

1.1.1 证据下界ELBO(Evidence Lower Bound)

在数学领域，"隐变量"通常指那些无法被直接观测或测量的变量。在统计建模及理论分析中，隐变量有助于解释表象背后的本质机制。通过将观测到的数据 $x$ 与隐变量 $z$ 结合，可以形成联合概率分布 $p (x, z)$ 。在此框架下，观测数据 $x$ 的边缘概率定义为 $p (x)$ 。这两类概率之间存在两种基本的转化方式。对联合分布 $p (x, z)$ 关于隐变量 $z$ 进行积分，将其全部影响纳入考虑，便可得到 $p (x)$ 。

$p(x)=∫p(x,z)dz(1.1.1)p(x)=\int p(x,z)\mathrm{d}z\quad(1.1.1)$

当然，根据链式法则也有：

$p(x)=p(x,z)p(z∣x)(1.1.2)p(x)=\frac{p(x,z)}{p(z|x)}\quad(1.1.2)$

公式（1.1.1）体现了对全部隐变量进行积分或求和的计算方式，这一过程将在后续推导中反复应用。公式（1.1.2）实质上为条件概率的展开表达，其中 $p (x, z)$ 可视为在给定隐变量 $z$ 的情况下，关于 $x$ 的输出分布。同时， $p (z ∣ x)$ 则可理解为一种解码机制，用于根据观测数据 $x$ 预测对应的隐变量 $z$ 。借助公式（1.1.2），有可能进一步引出证据下界（Evidence Lower Bound, ELBO）的相关理论。

这里为了使同学能看懂，补充一些数学理论，后面的内容中设计下面的格式，都代表补充内容，不再赘述。

[证据下界] 证据下界是变分推断中的一个核心概念，它为后验概率的近似提供了一个下界。简单来说，证据下界（ELBO）是在我们处理一些概率问题时，用来帮助我们估算和理解某些难以计算的概率的一个工具。想象一下我们有一堆图片数据，每张图片都有无法描述的特征 。假如我们对“无法描述的特征”感兴趣，想要得到这样的后验概率，可以使用最大化证据下界法。

让我们试着深入推理一下的ELBO。

$log⁡p(x)=log⁡∫p(x,z)dz=log⁡∫p(x,z)pϕ(z∣x)pϕ(z∣x)dz(1.1.3)=log⁡Epϕ(z∣x)[p(x,z)pϕ(z∣x)](1.1.4)≥Epϕ(z∣x)[log⁡p(x,z)pϕ(z∣x)](1.1.5)\begin{aligned}\log p(x)&=\log\int p(x,z)\mathrm{d}z\\&=\log\int\frac{p(x,z)p_\phi(z|x)}{p_\phi(z|x)}\mathrm{d}z\quad(1.1.3)\\&=\log\mathbb{E}_{p_{\phi}(z|x)}[\frac{p(x,z)}{p_{\phi}(z|x)}]\quad(1.1.4)\\&\geq\mathbb{E}_{p_\phi(z|x)}[\log\frac{p(x,z)}{p_\phi(z|x)}]\quad(1.1.5)\end{aligned}$

在公式（1.1.3）中，提出了参数为 $ϕ\phi$ 的模型分布 $pϕ(z∣x)p_\phi(z|x)$ 。直观来看，这一分布可以理解为用参数 $ϕ\phi$ 的模型去估计在给定观测值 $x$ 时隐变量 $z$ 的真实后验分布。该方法的目标是使 $pϕ(z∣x)p_\phi(z|x)$ 尽可能贴近 $p (z ∣ x)$ 。在探索“变分自编码器”过程中，通过调整参数 $ϕ\phi$ ，能够有效地提升下界，从而实现对 ELBO 的最大化。

1.1.4 说明：[高数不证明的定理] 公式（1.1.4）使用期望重要定理。这是大学《概率论与数理统计》教科书中著名的不证明的定理。我这里也不想证明，因为看过证明过程后感觉的确有些复杂。这里单纯复述下。若随机变量 $Y$ 符合函数 $Y = g (x)$ ，且 $∫−∞+∞g(x)f(x)dx\int_{-\infty}^{+\infty}g(x)f(x)dx$ 绝对收敛，则有

$E(Y)=E(g(X))=∫−∞+∞g(x)f(x)dx(1.1.6)E(Y)=E(g(X))=\int_{-\infty}^{+\infty}g(x)f(x)\mathrm{d}x\quad(1.1.6)$

1.1.5 说明：[Jensen不等式] 公式（1.1.5）使用了Jensen不等式。Jenson不等式定义：在不等式中，若 $f (x)$ 为区间 $I$ 上的下凸函数(凹函数)，则对于任意 $xi∈Ix_{i}\in I$ ，在满足 $∑i=1nλi=1\sum_{i=1}^n\lambda_i=1$ 的 $,n)\lambda_i>0(i=1,2,\cdots,n)$ 时，下公式成立： $f(∑i=1nλixi)⩽∑i=1nλif(xi)f(\sum_{i=1}^n\lambda_ix_i)\leqslant\sum_{i=1}^n\lambda_if(x_i)$