【2023.07.14】生成模型(二) HVAE和VDM

文章探讨了HierarchicalVariationalAutoencoders(HVAE)在特定条件下如何近似为VariationalDiffusionModels(VDM)。VDM的优化目标包括重建、先验匹配和一致性项,其中重点在于一致性项的优化。通过调整信噪比和使用scorefunction作为优化目标,可以改进模型性能。Tweediesformula在后验估计中的应用也得到了讨论。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.HVAE和VDM的关系:

在满足以下三个条件下,可以将Hierarchical Variational Autoencoders近似为变分扩散模型。第一,中间隐变量的维度和数据维度相同。第二,隐变量的结构不是学习出的,而是预先规定为线性高斯分布,即每个子变量都是父变量的线性组合。第三,中间隐变量的变化方式最后会使得最终的隐变量满足标准高斯分布。

在VDM中模型只需要优化一个参数,学习条件分布p_{\theta}(x_{t-1}|x_t) 。因为隐变量的高斯分布的方差和均值可以被设置为超参数或可学习得参数。设置均值和方差满足如下规定,保证模型variance-preserving得特性:。因此此时encoder分布q(x_t|x_{t-1})不由参数\phi决定,而直接被预先规定得方差和均值决定。

2.VDM优化目标

ELBO也可以被拆分为三项:reconstruction term, prior matching term, consistency term.

reconstruction term衡量了只根据第一步隐变量预测原有数据的likelihood。prior matching term衡量的最终步隐变量和高斯先验的KL散度,并且该项不存在参数可优化,仅当T值足够大,该项值就会近似为零。consistency term约束每步的变量x_t的前向分布和后向分布尽可能得接近,是约束的主要目标。

由于consistency term是在{x_{t-1},x_{t+1}}上求均值,如果类似的使用VAE的用monte carlo estimate,则估计得到的consistency term值会偏大,并且这个偏离在大T值时非常明显。

因此我们对前向分布增加了一个条件x0q(x_t|x_{t-1})=q(x_t|x_{t-1},x_0),再利用贝叶斯定理,将evidence拆分,最终得到reconstruction term,KL divergence, denoising mathing term.

 优化ELBO的主要重心落在优化denoising term。但是

不能被直接优化,因为在任意马尔可夫HVAE中最小化任意后验复杂度高。因此可以结合贝叶斯定理+reparameterization+高斯分布的叠加特性,证明两者均满足高斯分布,再结合KL散度定义简化得到优化目标:

VDM可以被理解为训练一个神经网络,能够从任意噪声程度的图像预测真实图像。 

1)信噪比和VDM

根据信噪比定义(信号比噪声),可以将优化目标变换为:

 为了便于学习,将结合SNR随时间t递减的特性(输入随时间t增加,逐渐接近标准正态分布),将SNR构造为由参数\eta表示的单减函数。因而可以直接随着训练扩散模型的神经网络,直接得到SNR值。

 2)以噪声为优化目标的VDM

根据reparameterization的用\epsilon_0x_0描述x_t的关系可以将\mu_q(x_t,x_0),\mu_\theta(x_t,t)中的x_0,\hat{x_\theta}(x_t,t)消去,用\epsilon_0,\hat{\epsilon}_\theta(x_t,t)表示。此时优化目标变为:

 VDM可以被理解为,训练一个网络\hat{\epsilon}_\theta(x_t,t),拟合任意时间决定x_0x_t的噪声。理论上,两者的效果相同,实际上后者的效果更好。

3)以score function为优化目标的VDM

(i) Tweedie's formula

 

一个指数族的均值可以通过样本的最大似然估计和与估计的分数相关的修正项预测。 

对后验xt使用Tweedie's formula,其中\nabla_{x_t}logp(x_t)简化为\nabla logp(x_t): 

(2)将\mu_q(x_t,x_0),\mu_\theta(x_t,t)中的x_0,\hat{x_\theta}(x_t,t)消去,用\nabla_{x_t}logp(x_t),\hat{s}_\theta(x_t,t)表示。此时优化目标变为:

 

 此时VDM可以被理解为训练一个网络,学习score function,用于计算任意噪声程度的x_t的梯度

(3)score function和源噪声的关系:

将reparameterization与Tweedie's formula连等,即可得。该公式可以被这样理解:score function决定了去噪优化方向,而最快的方向即为和加噪方向的反方向。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值