Understanding Diffusion Model[下]

最新推荐文章于 2025-06-10 19:55:42 发布

老婆叫苏苏

最新推荐文章于 2025-06-10 19:55:42 发布

阅读量971

点赞数 3

分类专栏：论文阅读文章标签：人工智能算法

本文链接：https://blog.youkuaiyun.com/weixin_44119239/article/details/127970386

版权

5. Three Equivalent Interpretations

如之前证明所示，可以通过简单的学习神经网络来训练变分扩散模型，可以从任意噪声 $x_t$ 以及其时间索引 $t$ 中预测出原始自然图像 $x_0$ 。然而， $x_0$ 具有其他两种等效参数化，这导致了对VDM的两种进一步的解释。

首先，我们可以使用重参数技巧。在我们推导的形式 $q(x_t \mid x_0)$ 中，我们可以重新排列公式69以表明:
$x_0 = \frac{x_t - \sqrt{1-\bar \alpha_t} \epsilon_0}{\sqrt{\bar \alpha_t}} \qquad (115)$
将其插入到我们先前推导出的gt去噪转移步骤的均值 $\mu_q(x_t,x_0)$ 中，我们可以重新推导为:

在这里插入图片描述

因此，我们可以设置我们近似去噪步骤的均值 $\mu_\theta(x_t,t)$ 为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QYchqZgk-1669026624888)(img\image-20221115102356396-16684790378243.png)]

于是，相关的优化问题就变成了:

在这里插入图片描述

其中， $\hat \epsilon_\theta(x_t,t)$ 是一个神经网络，用于学习去预测从 $x_0$ 确定 $x_t$ 的源噪声 $\epsilon_0 \sim \mathcal N(\epsilon;0,I)$ 。因此，我们已经表明，通过预测原始图像 $x_0$ 来学习VDM等同于学习预测噪声；然而从经验上看，一些工作发现预测噪声会带来更好的性能。 $\epsilon_0$ 是第一次向原始图像 $x_0$ 添加的噪声。

为了推导变分扩散模型的第三种常见解释，我们求助于Tweedie公式。该公式指出，给定从指数族分布中提取的样本，指数族分布的真实平均值可以通过从样本的最大似然估计（也称为经验平均值）加上涉及估计得分的一些校正项来估计。在只有一个观察样本的情况下，经验平均值只是样本本身，它通常用于减轻样本偏差；如果观察到的样本都位于潜在分布的一端，则负分数变大，并将样本的原始最大似然估计修正为真实平均值。

数学上，对于一个高斯变量 $\sim \mathcal N(z;\mu_z,\Sigma_z)$ ，Tweedie公式声明:
$\mathbb E[\mu_z \mid z] = z+ \Sigma_z \nabla_zlogp(z)$
在这种情况下，我们使用该公式去预测给定样本的 $x_t$ 的真实后验均值。对于公式70，我们可以知道:
$q(x_t \mid x_0) = \mathcal N(x_t;\sqrt{\bar \alpha_t}x_0,(1-\alpha_t)I)$
然后，使用Tweedie公式，我们可以得到:
$\mathbb E[\mu_{x_t} \mid x_t] = x_t + (1-\alpha_t) \nabla_{x_t}logp(x_t) \qquad (131)$
为了记号的简便，我们将 $\nabla_{x_t}logp(x_t)$

最低0.47元/天解锁文章