1.HVAE和VDM的关系:
在满足以下三个条件下,可以将Hierarchical Variational Autoencoders近似为变分扩散模型。第一,中间隐变量的维度和数据维度相同。第二,隐变量的结构不是学习出的,而是预先规定为线性高斯分布,即每个子变量都是父变量的线性组合。第三,中间隐变量的变化方式最后会使得最终的隐变量满足标准高斯分布。
在VDM中模型只需要优化一个参数,学习条件分布 。因为隐变量的高斯分布的方差和均值可以被设置为超参数或可学习得参数。设置均值和方差满足如下规定,保证模型variance-preserving得特性:
。因此此时encoder分布
不由参数
决定,而直接被预先规定得方差和均值决定。
2.VDM优化目标
ELBO也可以被拆分为三项:reconstruction term, prior matching term, consistency term.
reconstruction term衡量了只根据第一步隐变量预测原有数据的likelihood。prior matching term衡量的最终步隐变量和高斯先验的KL散度,并且该项不存在参数可优化,仅当T值足够大,该项值就会近似为零。consistency term约束每步的变量的前向分布和后向分布尽可能得接近,是约束的主要目标。
由于consistency term是在上求均值,如果类似的使用VAE的用monte carlo estimate,则估计得到的consistency term值会偏大,并且这个偏离在大T值时非常明显。
因此我们对前向分布增加了一个条件x0,,再利用贝叶斯定理,将evidence拆分,最终得到reconstruction term,KL divergence, denoising mathing term.
优化ELBO的主要重心落在优化denoising term。但是
不能被直接优化,因为在任意马尔可夫HVAE中最小化任意后验复杂度高。因此可以结合贝叶斯定理+reparameterization+高斯分布的叠加特性,证明两者均满足高斯分布,再结合KL散度定义简化得到优化目标:
VDM可以被理解为训练一个神经网络,能够从任意噪声程度的图像预测真实图像。
1)信噪比和VDM
根据信噪比定义(信号比噪声),可以将优化目标变换为:
为了便于学习,将结合SNR随时间t递减的特性(输入随时间t增加,逐渐接近标准正态分布),将SNR构造为由参数表示的单减函数
。因而可以直接随着训练扩散模型的神经网络,直接得到SNR值。
2)以噪声为优化目标的VDM
根据reparameterization的用,
描述
的关系可以将
中的
,
消去,用
表示。此时优化目标变为:
VDM可以被理解为,训练一个网络,拟合任意时间决定
到
的噪声。理论上,两者的效果相同,实际上后者的效果更好。
3)以score function为优化目标的VDM
(i) Tweedie's formula
一个指数族的均值可以通过样本的最大似然估计和与估计的分数相关的修正项预测。
对后验xt使用Tweedie's formula,其中简化为
:
(2)将
中的
,
消去,用
表示。此时优化目标变为:
此时VDM可以被理解为训练一个网络,学习score function,用于计算任意噪声程度的的梯度。
(3)score function和源噪声的关系:
将reparameterization与Tweedie's formula连等,即可得。该公式可以被这样理解:score function决定了去噪优化方向,而最快的方向即为和加噪方向的反方向。