生成模型(VAE、GAN与DDPM)

1. 生成模型的共同思想

变分自编码器(VAE)、生成对抗网络(GAN)和去噪扩散概率模型(DDPM)都是生成模型,其目标是学习真实数据分布 pdata(x)p_{\text{data}}(x)pdata(x) 并生成新样本。它们的共同思想包括:

  1. 学习数据分布

    • 目标是使生成分布 pG(x)p_G(x)pG(x) 逼近 pdata(x)p_{\text{data}}(x)pdata(x)
    • VAE通过显式似然建模,GAN通过隐式对抗,DDPM通过扩散过程实现。
  2. 潜在空间表示

    • 使用低维潜在空间捕捉数据的核心特征。
    • VAE显式定义分布(如高斯分布),GAN隐式生成,DDPM通过去噪过程恢复。
  3. 生成逼真样本

    • 都追求生成高质量、多样的样本,适用于图像、文本等领域。
  4. 概率与优化

    • 涉及概率建模(VAE和DDPM更显式)和深度学习优化。
    • 通过神经网络和梯度下降优化目标函数。
  5. 权衡

    • 需平衡生成质量、样本多样性、训练稳定性和计算效率。

2. 变分自编码器(VAE)

2.1 什么是VAE?

VAE结合深度学习和贝叶斯推断,通过编码-解码结构学习数据的潜在分布。它假设数据由潜在变量 zzz 生成,并使用变分推断近似后验分布。

2.2 结构

  • 编码器:输入 xxx,输出潜在分布参数(均值 μ\muμ,对数方差 log⁡σ2\log \sigma^2logσ2)。
  • 解码器:从 z∼N(μ,σ)z \sim \mathcal{N}(\mu, \sigma)zN(μ,σ) 采样,生成重构数据 x^\hat{x}x^

2.3 数学原理

VAE的目标是最大化数据边际似然 p(x)=∫p(x∣z)p(z)dzp(x) = \int p(x|z)p(z)dzp(x)=p(xz)p(z)dz。由于积分不可解,VAE引入变分分布 q(z∣x)q(z|x)q(zx) 近似后验 p(z∣x)p(z|x)p(zx),优化证据下界(ELBO)
log⁡p(x)≥Eq(z∣x)[log⁡p(x∣z)]−DKL(q(z∣x)∣∣p(z))=LELBO\log p(x) \geq \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{\text{KL}}(q(z|x) || p(z)) = L_{\text{ELBO}}logp(x)Eq(zx)[logp(xz)]DKL(q(zx)∣∣p(z))=LELBO

  1. 重构损失
    Eq(z∣x)[log⁡p(x∣z)]\mathbb{E}_{q(z|x)}[\log p(x|z)]Eq(zx)[logp(xz)] 表示重构数据 x^\hat{x}x^xxx 的相似性。若 p(x∣z)p(x|z)p(xz) 为高斯分布,假设 x^∼N(f(z),I)\hat{x} \sim \mathcal{N}(f(z), I)x^N(f(z),I),则:
    log⁡p(x∣z)∝−∥x−x^∥2\log p(x|z) \propto -\| x - \hat{x} \|^2logp(xz)xx^2,因此重构损失等价于均方误差(MSE)。

  2. KL散度
    DKL(q(z∣x)∣∣p(z))D_{\text{KL}}(q(z|x) || p(z))DKL(q(zx)∣∣p(z)) 衡量 q(z∣x)=N(μ,σ2)q(z|x) = \mathcal{N}(\mu, \sigma^2)q(zx)=N(μ,σ2) 与先验 p(z)=N(0,I)p(z) = \mathcal{N}(0, I)p(z)=N(0,I) 的差异。对于高斯分布,KL散度有闭式解:
    DKL=12∑i=1d(μi2+σi2−log⁡σi2−1)D_{\text{KL}} = \frac{1}{2} \sum_{i=1}^d \left( \mu_i^2 + \sigma_i^2 - \log \sigma_i^2 - 1 \right)DKL=21i=1d(μi2+σi2logσi21),其中 ddd 是潜在空间维度。

  3. 重参数化技巧
    直接采样 z∼N(μ,σ)z \sim \mathcal{N}(\mu, \sigma)zN(μ,σ) 不可导,因此设:
    z=μ+σ⋅ϵ,ϵ∼N(0,I)z = \mu + \sigma \cdot \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)z=μ+σϵ,ϵN(0,I),使梯度可通过 μ,σ\mu, \sigmaμ,σ 传播。

总损失为:
L=∥x−x^∥2+DKL(q(z∣x)∣∣p(z))L = \| x - \hat{x} \|^2 + D_{\text{KL}}(q(z|x) || p(z))L=x

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值