VAE详细推导

VAE损失函数详解

最新推荐文章于 2025-09-19 15:42:54 发布

原创最新推荐文章于 2025-09-19 15:42:54 发布 · 1.7w 阅读

41 ·

CC 4.0 BY-SA版权

文章标签：

#算法

学习笔记专栏收录该内容

18 篇文章

订阅专栏

本文是对VAE的loss的详细推导

先上两个图解释下VAE

这里写图片描述

在这两个的基础上，我们可以定义data likelihood:

这里写图片描述

为什么要采用变分

由于MCMC算法的复杂性，对于 $q_{\phi}(z|x)$ ，如果对每个数据点都要大量采样，在大数据情况下是难以实现的，因此需要找一个近似的方法。变分推理的思想就是寻找一个容易处理的分布使得与目标分布尽量接近来代替它。

上述公式的第二部分就是利用 $p_\theta(z)$ 来近似 $q_{\phi}(z| x)$ , 第三项不好计算，但是我们知道KL散度是大于0的，因此可以得到似然函数的下界。

loss的推导：

$D_{KL}(q_\phi(z| x) || p_{\theta}(z))$ , $p_{\theta}(z)$ ~N(0,1), 下面推导过程将 $(q_\phi(z| x)$ 简化为 $q$

$D_{KL}(q_\phi(z| x) || p_{\theta}(z)) = \int q(z) log\frac{q(z)}{p(z)}dz$
$=\int q(z) ((log q(z) - log p(z))dz$
$=\int q(z) (log(\frac{1}{\sqrt{2 \pi \sigma^2}} e^{\frac{(z-\mu)^2}{2 \sigma^2}})- log(\frac{1}{\sqrt{2 \pi }} e^{\frac{(z)^2}{2}})$
$=\int q(z)(log \frac{1}{\sigma})dz + \int \frac{z^2}{2}q(z)dz - \int \frac{(z-\mu)^2}{2\sigma^2}q(z)$

观察第一项就是常数和概率密度积分求和
观察最后一项，其实就是求方差，因此可以很快得到答案 $\frac{1}{2}$

$=(log \frac{1}{\sigma}） +\int \frac{1}{2} (z-\mu + \mu)^2q(z)dz -\frac{1}{2}$

$=(log \frac{1}{\sigma}） +\frac{1}{2}(\int (z-\mu)^2 q(z)dz + \int \mu ^2q(z)dz + 2\int (z-\mu)(\mu) dz) -\frac{1}{2}$

观察最后一项积分项，是求期望的公式，因此结果为0

综上可以得到结果
$D_{KL}(q_\phi(z| x) || p_{\theta}(z))$ = $(log \frac{1}{\sigma}）+ \frac{\sigma^2 + \mu^2}{2} - \frac{1}{2}$

另一项 $E_z [log(p_\theta(x|z))]$ , 是关于x的后验概率的对数似然，在VAE 中并不对decoder做太强的假设，一般通过一个神经网络来得到正态分布的均值和方差，因此这一项不能通过解析求出，所以采用采样的方式：
$E_z [log(p_\theta(x|z))] = \frac{1}{L} \sum_{j=1} ^L log p_{\theta}(x^{i}|z^{j})$

同时注意这里的 $z$ 不是从高斯分布中直接采样，而是使用了一个重参数化的小trick。

这里以伯努利分布为例推导如下：
观测值的似然函数为
$L = \alpha_z^x (1- \alpha_z) ^{1-x}$
$log L = x log(x) + (1-x) log(1-x)$

综上可以得到loss 表达，tensorflow中计算如下：

    def _create_loss_optimizer(self):
        ## 1) reconstruction loss: the negative log probability of the input under the reconstructed distribution
        ## E_z (log(p_theta(x|z)))
        reconstr_loss = -tf.reduce_sum(self.x * tf.log(1e-10 + self.x_reconstr_mean) + (1-self.x) * tf.log(1e-10 + 1-self.x_reconstr_mean))

        ## 2) latent loss, which is defined as the kullback Leibler divergence
        ## D = 0.5 \sum(1 + log(\sigma^2) - \mu^2 -\sigma^2)
        latent_loss = -0.5 * tf.reduce_sum(1 + self.z_log_sigma_sq - tf.square(self.z_mean) - tf.exp(self.z_log_sigma_sq), 1)

        self.cost = tf.reduce_mean(reconstr_loss + latent_loss)
        self.optimizer = tf.train.AdadeltaOptimizer(learning_rate=self.learning_rate).minimize(self.cost)