Auto-Encoding Variational Bayes

最新推荐文章于 2025-05-21 20:22:29 发布

Ghy817920

最新推荐文章于 2025-05-21 20:22:29 发布

阅读量337

点赞数

CC 4.0 BY-SA版权

分类专栏：变分自动编码机

本文链接：https://blog.youkuaiyun.com/Ghy817920/article/details/95948030

变分自动编码机专栏收录该内容

9 篇文章

订阅专栏

博客介绍了VAE概率图模型，包括生成过程和推断过程。目标是使likelihood最大，但无法直接优化。通过引入变分后验得到ELBO，其第二部分有解析解，第一部分用MCMC方法近似，结合reparameterization trick可获较精确结果，还说明了数据集处理方式。

VAE概率图模型如下
在这里插入图片描述
实线为生成过程： $pθ(z)pθ(x∣z)p_{\boldsymbol{\theta}}(\mathbf{z}) p_{\boldsymbol{\theta}}(\mathbf{x} | \mathbf{z})$ ，虚线为推断过程： $qϕ(z∣x)q_{\phi}(\mathbf{z} | \mathbf{x})$ 近似真实后验分布 $pθ(z∣x)p_{\boldsymbol{\theta}}(\mathbf{z} | \mathbf{x})$ 。

对于数据 $X={x(i)}i=1N\mathbf{X}=\left\{\mathbf{x}^{(i)}\right\}_{i=1}^{N}$ ，我们的目标是使likelihood $∑i=1Nlog⁡pθ(x(i))\sum_{i=1}^{N} \log p_{\theta}\left(\mathbf x^{(i)}\right)$ 最大，但 $∑i=1Nlog⁡pθ(x(i))=∑i=1Nlog⁡∫z(i)pθ(x(i),z(i))dz(i)\sum_{i=1}^{N} \log p_{\theta}\left(\mathbf x^{(i)}\right)=\sum_{i=1}^{N} \log \int_{\mathbf z^{(i)}} p_{\theta}\left(\mathbf x^{(i)},\mathbf z^{(i)}\right) d \mathbf z^{(i)}$ 是没法直接优化的。为了描述方便，先略去 $x,z\mathbf x,\mathbf z$ 的上标。
首先考虑引入一个变分后验 $qϕ(z∣x)→pθ(z∣x)q_{\phi}(\mathbf z | \mathbf x) \rightarrow p_{\theta}(\mathbf z | \mathbf x)$ ，则 $\begin{aligned} K L\left(q_{\phi}(\mathbf z | \mathbf x) \| p_{\theta}(\mathbf z | \mathbf x)\right) &=E_{q_{\phi}(\mathbf z | \mathbf x)}\left[\log \frac{q_{\phi}(\mathbf z | \mathbf x)}{p_{\theta}(\mathbf z | \mathbf x)}\right] \\ &=E_{q_{\phi}(\mathbf z | \mathbf x)}\left[\log \frac{q_{\phi}(\mathbf z | \mathbf x)}{p_{\theta}(\mathbf z, \mathbf x)}\right]+\log p_{\theta}(\mathbf x) \end{aligned}$ 所以， $\log p_{\theta}(\mathbf x)=K L\left(q_{\phi}(\mathbf z | \mathbf x) \| p_{\theta}(\mathbf z | \mathbf x)\right)-E_{q_{\phi}(\mathbf z | \mathbf x)}\left[\log \frac{q_{\phi}(\mathbf z | \mathbf x)}{p_{\theta}(\mathbf z, \mathbf x)}\right]$ 而 $L(\cdot \| \cdot) \geq 0$ ，那么 $\log p_{\theta}(\mathbf x) \geq-E_{q_{\phi}(\mathbf z | \mathbf x)}\left[\log \frac{q_{\phi}(\mathbf z | \mathbf x)}{p_{\theta}(\mathbf z, \mathbf x)}\right]$ 这样我们就得到了 $E L B O$ $\begin{aligned} E L B O &=E_{q_{\phi}(\mathbf z | \mathbf x)}\left[\log \frac{p_{\theta}(\mathbf z, \mathbf x)}{q_{\phi}(\mathbf z | \mathbf x)}\right] \\ &=E_{q_{\phi}(\mathbf z | \mathbf x)}\left[\log p_{\theta}(\mathbf x | \mathbf z)\right]-K L\left(q_{\phi}(\mathbf z | \mathbf x) \| p_{\theta}(\mathbf z)\right) \end{aligned}$ 上式的第二部分可以得到解析解，而第一部分只能通过MCMC方法近似得到，再采用reparameterization trick，可以很大程度得到较为精确的近似结果 $\widetilde{L B} O=\frac{1}{L} \sum_{l=1}^{L} \log p_{\theta}\left(\mathbf x | \mathbf z_{l}\right)-K L\left(q_{\phi}(\mathbf z | \mathbf x) \| p_{\theta}(\mathbf z)\right)$ 其中 $zl=gϕ(ϵl,x),ϵl∼p(ϵ)\mathbf z_{l}=g_{\phi}\left(\epsilon_{l}, \mathbf x\right), \epsilon_{l} \sim p(\epsilon)$ 。以上都是分析一个数据，对于一个数据集的数据，可以每次采样一个mini-batch近似整个数据即可 $L=\frac{N}{M} \sum_{i=1}^{M} E \widetilde{L B} O\left(\theta, \phi ; \mathbf x^{(i)}\right)$ 以上就是VAE的核心内容，一般来说可以取 $\begin{aligned} p_{\theta}(\mathbf z) & \sim N(0, I) \\ p_{\theta}(\mathbf x | \mathbf z) & \sim N\left(\mu_{\mathbf z}, \Sigma_{\mathbf z}\right) \text { or Bernulli}\left(p_{\mathbf z}\right) \\ q_{\phi}(\mathbf z | \mathbf x) & \sim N\left(\mu_{\mathbf x}, \Sigma_{\mathbf x}\right) \end{aligned}$