去噪扩散模型相关理论第一部分 变分自编码器VAE

因为内容很重要,本次内容会有点长,分成多个部分逐步推理DDPM的相关理论。

  • 第一部分:DDPM的基础知识。主要内容包括ELBO,VAE。
  • 第二部分:多层VAE及DDPM。该部分记录如何从DDPM的基础知识搭建起DDPM。
  • 第三部分:DDPM实例与伪代码。 之后我们再讲解其他种类的扩散模型。因此本节先从DDPM的基础知识讲起。该内容单看与DDPM无任何关系,是很早以前的卷积神经网络都在用的基础理论,但为了DDPM的流程推导需要。

去噪扩散概率模型(Denoising Diffusion Probabilistic Model,简称DDPM)是一种强大的生成模型,能够生成高质量的图像、音频以及其他类型的数据。其工作原理是模拟数据样本在噪声干扰下逐渐退化的过程,并在此基础上学习如何逆转这一退化过程,从而生成新的、无噪声的数据样本。DDPM的核心机制包括两个阶段:首先是加噪过程,通过一系列扩散步骤将干净的数据逐步添加噪声;其次是去噪过程,从噪声数据中逐步恢复出干净的数据。其中,去噪过程尤为重要,它实现了从初始的纯噪声向图像、音频或其他类型数据的转变,这也是生成数据的核心环节。我们通常将这一过程称为“去噪过程”或“采样过程”,不过“采样过程”更多地用于描述模型生成数据的最终阶段,而“去噪过程”则具有更广泛的适用性。

image-20250613082517201

如果以雕塑为例,可以更直观地理解这一过程。从一块未经雕琢的原始石材(类似于初始的纯噪声,原始、随机且无特征)雕刻成精美的雕塑作品(对应生成的数据)的过程,可以类比为扩散模型的去噪过程;而从精美的雕塑作品还原为原始石材的过程(虽然在现实中难以实现,但在模型中是可行的),则可以类比为扩散模型的加噪过程,下图是我用AI生成的扩散模型生成图片原理比喻。

image-20250613092303756

1.1 变分自编码器VAE

1.1.1 证据下界ELBO(Evidence Lower Bound)

在数学领域,"隐变量"通常指那些无法被直接观测或测量的变量。在统计建模及理论分析中,隐变量有助于解释表象背后的本质机制。通过将观测到的数据 xxx 与隐变量 zzz 结合,可以形成联合概率分布 p(x,z)p(x, z)p(x,z)。在此框架下,观测数据 xxx 的边缘概率定义为 p(x)p(x)p(x)。这两类概率之间存在两种基本的转化方式。对联合分布 p(x,z)p(x, z)p(x,z) 关于隐变量 zzz 进行积分,将其全部影响纳入考虑,便可得到 p(x)p(x)p(x)

p(x)=∫p(x,z)dz(1.1.1)p(x)=\int p(x,z)\mathrm{d}z\quad(1.1.1)p(x)=p(x,z)dz(1.1.1)

当然,根据链式法则也有:

p(x)=p(x,z)p(z∣x)(1.1.2)p(x)=\frac{p(x,z)}{p(z|x)}\quad(1.1.2)p(x)=p(zx)p(x,z)(1.1.2)

公式(1.1.1)体现了对全部隐变量进行积分或求和的计算方式,这一过程将在后续推导中反复应用。公式(1.1.2)实质上为条件概率的展开表达,其中 p(x,z)p(x, z)p(x,z) 可视为在给定隐变量 zzz 的情况下,关于 xxx 的输出分布。同时,p(z∣x)p(z|x)p(zx) 则可理解为一种解码机制,用于根据观测数据 xxx 预测对应的隐变量 zzz。借助公式(1.1.2),有可能进一步引出证据下界(Evidence Lower Bound, ELBO)的相关理论。

这里为了使同学能看懂,补充一些数学理论,后面的内容中设计下面的格式,都代表补充内容,不再赘述。

[证据下界] 证据下界是变分推断中的一个核心概念,它为后验概率的近似提供了一个下界。简单来说,证据下界(ELBO)是在我们处理一些概率问题时,用来帮助我们估算和理解某些难以计算的概率的一个工具。想象一下我们有一堆图片数据 ,每张图片都有无法描述的特征 。假如我们对“无法描述的特征”感兴趣,想要得到 这样的后验概率,可以使用最大化证据下界法 。

让我们试着深入推理一下 的ELBO。

log⁡p(x)=log⁡∫p(x,z)dz=log⁡∫p(x,z)pϕ(z∣x)pϕ(z∣x)dz(1.1.3)=log⁡Epϕ(z∣x)[p(x,z)pϕ(z∣x)](1.1.4)≥Epϕ(z∣x)[log⁡p(x,z)pϕ(z∣x)](1.1.5)\begin{aligned}\log p(x)&=\log\int p(x,z)\mathrm{d}z\\&=\log\int\frac{p(x,z)p_\phi(z|x)}{p_\phi(z|x)}\mathrm{d}z\quad(1.1.3)\\&=\log\mathbb{E}_{p_{\phi}(z|x)}[\frac{p(x,z)}{p_{\phi}(z|x)}]\quad(1.1.4)\\&\geq\mathbb{E}_{p_\phi(z|x)}[\log\frac{p(x,z)}{p_\phi(z|x)}]\quad(1.1.5)\end{aligned}logp(x)=logp(x,z)dz=logpϕ(zx)p(x,z)pϕ(zx)dz(1.1.3)=logEpϕ(zx)[pϕ(zx)p(x,z)](1.1.4)Epϕ(zx)[logpϕ(zx)p(x,z)](1.1.5)

在公式(1.1.3)中,提出了参数为 ϕ\phiϕ 的模型分布 pϕ(z∣x)p_\phi(z|x)pϕ(zx)。直观来看,这一分布可以理解为用参数 ϕ\phiϕ 的模型去估计在给定观测值 xxx 时隐变量 zzz 的真实后验分布。该方法的目标是使 pϕ(z∣x)p_\phi(z|x)pϕ(zx) 尽可能贴近 p(z∣x)p(z|x)p(zx)。在探索“变分自编码器”过程中,通过调整参数 ϕ\phiϕ,能够有效地提升下界,从而实现对 ELBO 的最大化。

1.1.4 说明:[高数不证明的定理] 公式(1.1.4)使用期望重要定理。这是大学《概率论与数理统计》教科书中著名的不证明的定理。我这里也不想证明,因为看过证明过程后感觉的确有些复杂。这里单纯复述下。若随机变量 YYY符合函数Y=g(x)Y=g(x)Y=g(x) ,且 ∫−∞+∞g(x)f(x)dx\int_{-\infty}^{+\infty}g(x)f(x)dx+g(x)f(x)dx绝对收敛,则有

E(Y)=E(g(X))=∫−∞+∞g(x)f(x)dx(1.1.6)E(Y)=E(g(X))=\int_{-\infty}^{+\infty}g(x)f(x)\mathrm{d}x\quad(1.1.6)E(Y)=E(g(X))=+g(x)f(x)dx(1.1.6)

1.1.5 说明:[Jensen不等式] 公式(1.1.5)使用了Jensen不等式。Jenson不等式定义:在不等式中,若 f(x)f(x)f(x)为区间 III上的下凸函数(凹函数),则对于任意xi∈Ix_{i}\in IxiI ,在满足 ∑i=1nλi=1\sum_{i=1}^n\lambda_i=1i=1nλi=1λi>0(i=1,2,⋯ ,n)\lambda_i>0(i=1,2,\cdots,n)λi>0(i=1,2,,n)时,下公式成立:f(∑i=1nλixi)⩽∑i=1nλif(xi)f(\sum_{i=1}^n\lambda_ix_i)\leqslant\sum_{i=1}^n\lambda_if(x_i)f(i=1nλixi)i=1nλif(xi)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值