变分自编码器（VAE）

XI-C-Li

已于 2023-09-12 19:50:14 修改

阅读量5.8k

点赞数 13

分类专栏：深度生成模型文章标签：人工智能机器学习算法

于 2023-08-11 09:57:54 首次发布

本文链接：https://blog.youkuaiyun.com/m0_58581487/article/details/132201713

版权

深度生成模型专栏收录该内容

3 篇文章

订阅专栏

生成模型中的概率密度估计问题

生成模型通过学习样本数据的概率分布来生成新的样本数据，包含两个基本功能，密度估计和生成样本。

密度估计可以采用EM算法，其中的E步需要计算后验概率密度 $p(z|x)$ ，当图模型中隐变量是一维离散变量时，后验概率密度可直接计算，若隐变量更加复杂，则需要使用变分推断，采用较为简单的分布 $q(z)$ 来近似。但有时 $p(z|x)$ 比较复杂时，近似效果不佳，这时又可考虑采用神经网络来近似。

变分自编码器介绍

假设一个生成模型中含有隐变量，观测变量是一个高维随机向量 $X$ ，隐变量是相对低维的随机向量 $Z$ ，生成模型可以描述为（实线为生成模型，虚线为变分近似）：

这个生成模型的联合概率密度可以分解为：

$p(\mathbf{x,z};\theta)=p(\mathbf{z};\theta)p(\mathbf{x|z;}\theta)$

其中 $p(\mathbf{z};\theta)$ 为隐变量的先验分布的概率密度函数， $p(\mathbf{x|z;}\theta)$ 为为已知 $\mathbf{z}$ 时观测变量 $\mathbf{x}$ 的条件概率密度函数， $\theta$ 表示两个概率密度的参数。我们可以假设 $p(\mathbf{z};\theta)$ 和 $p(\mathbf{x|z;}\theta)$ 为某种参数化的分布族，比如正态分布。这些分布的形式已知，只是参数 $\theta$ 未知，可以通过最大化似然来进行估计。

给定一个样本 $x$ ,其对数边际似然函数可以分解为：

$\log{p\left ( \mathbf{x};\theta \right )} = ELBO\left ( q,\mathbf{x};\theta,\phi \right ) +KL\left ( q\left ( \mathbf{z} ;\phi\right )||p\left (\mathbf{ z|x};\theta \right )\right )$

其中， $q\left ( \mathbf{z} ;\phi\right )$ 为额外引入的变分密度函数，参数为 $\phi$ ， $ELBO\left ( q,\mathbf{x};\theta,\phi \right )$ 为证据下界，其表达式为：

$\displaystyle ELBO\left ( q,\mathbf{x};\theta,\phi \right )=\int_zq\left (\mathbf{ z};\phi \ \right )\log{\frac{p\left (\mathbf{z|x};\theta\right )}{q\left ( \mathbf{z};\phi \ \right )}}dz$

最大化对数边际似然可以使用广义EM算法来求解，其步骤为

1.E步，固定参数 $\theta$ ,寻找一个变分密度函数 $q\left ( \mathbf{z} ;\phi\right )$ 来近似后验概率密度函数 $p\left (\mathbf{ z|x};\theta \right )$ 。

2.M步，固定 $q\left ( \mathbf{z} ;\phi\right )$ ，寻找 $\theta$ 来最大化证据下界 $ELBO\left ( q,\mathbf{x};\theta,\phi \right )$ 。

在E步中，理论上最优的 $q\left ( \mathbf{z} ;\phi\right )$ 就是 $p\left (\mathbf{ z|x};\theta \right )$ ，

$\displaystyle p(\mathbf{z|x};\theta) = \frac{p(\mathbf{x|z};\theta)p(\mathbf{z};\theta)}{\int_{\mathbf{z}}p(\mathbf{x|z};\theta)p(\mathbf{z};\theta)d\mathbf{z}}$

这样，就回到了文章开头提到的后验概率密度估计的问题，更进一步， $p(\mathbf{x|z})$ 这个已知 $\mathbf{z}$ 时观测变量 $\mathbf{x}$ 的条件概率密度函数一般也比较复杂，很难直接用已知的分布族函数进行建模。

变分自编码器是一种深度生成模型，其基本思想就是利用神经网络来近似两个复杂的概率密度函数。

1.用神经网络来估计变分密度函数 $q\left ( \mathbf{z} ;\phi\right )$ ，称为推断网络．理论上 $q\left ( \mathbf{z} ;\phi\right )$ 可以不依赖 $\mathbf{x}$ ．但由于 $q\left ( \mathbf{z} ;\phi\right )$ 的目标是近似后验分布 $p\left (\mathbf{ z|x};\theta \right )$ ，其和 $\mathbf{x}$ 相关，因此变分密度函数一般写为 $q\left ( \mathbf{z|x} ;\phi\right )$ 。推断网络的输入为 $\mathbf{x}$ ，输出为变分密度函数 $q\left ( \mathbf{z|x} ;\phi\right )$ 。

2.用神经网络来估计概率分布 $p(\mathbf{x|z};\theta)$ ，称为生成网络．生成网络的输入为 $\mathbf{z}$ ，输出为概率分布 $p(\mathbf{x|z};\theta)$ 。

将推断网络和生成网络合并就得到了变分自编码器的整个网络结构。（图片来源于邱锡鹏《神经网络与深度学习》）

其中实线表示网络计算操作，虚线表示采样操作。

推断网络

为了简单起见，假设 $q\left ( \mathbf{z|x} ;\phi\right )$ 服从对角化协方差的高斯分布

$q\left ( \mathbf{z|x} ;\phi\right ) = N(\mathbf{z};\mu_I,\sigma_I^2I)$

其中 $\mu_I$ 和 $\sigma_I^2I$ 是高斯分布的均值和方差，可以通过推断网络 $f_I(\mathbf{x};\phi)$ 来预测，

$\displaystyle \begin{bmatrix} \mu_I\\ \sigma_I^2 \end{bmatrix} = f_I(\mathbf{x};\phi)$

其中的 $f_I(\mathbf{x};\phi)$ 可以是一般的全连接网络或者卷积神经网络，比如一个两层的全连接网络，

$\begin{aligned} \mathbf{h}& = \sigma(\mathbf{W^{(1)}x+b^{(1)}})\\ \mu_I& =\mathbf{W^{(2)}h+b ^{(2)}}\\ \sigma_I^2 &=softplus(\mathbf{W^{(3)}h+b ^{(3)}}) \end{aligned}$

$\phi$ 代表的是推断网络的所有网络参数 $\{W^{(1)},W^{(2)},W^{(3)},b^{(1)},b^{(2)},b^{(3)}\}$ ，而 $softplus(x) = \log{(1+e^x)}$ ， $\sigma$ 和 $softplus$ 是激活函数， $\sigma$ 是 $Logistic$ 函数，而使用 $softplus$ 是因为方差总是非负的，实际中可以采用一个线性层来预测 $\log{(\sigma_I^2 )}$ 。

推断网络 $f_I(\mathbf{x};\phi)$ 的目标是是使得 $q\left ( \mathbf{z|x} ;\phi\right )$ 尽可能接近真实的后验 $p\left (\mathbf{ z|x};\theta \right )$ ，需要找到一组网络参数 $\phi^*$ 来最小化两个分布的KL散度，即

$\phi^* = \underset{\phi}{argmin} KL(q\left ( \mathbf{z|x} ;\phi\right )||p\left (\mathbf{ z|x};\theta \right ))$

然而，直接计算上面的KL散度是不可能的，因为 $p\left (\mathbf{ z|x};\theta \right )$ 一般无法计算．传统方法是利用采样或者变分法来近似推断。基于采样的方法效率很低且估计也不是很准确，所以一般使用的是变分推断方法，即用简单的分布 $q$ 去近似复杂的分布 $p\left (\mathbf{ z|x};\theta \right )$ 。但是，在深度生成模型中， $p\left (\mathbf{ z|x};\theta \right )$ 通常比较复杂，很难用简单分布去近似。因此，我们需要找到一种间接计算方法。由于

$\log{p\left ( \mathbf{x};\theta \right )} = ELBO\left ( q,\mathbf{x};\theta,\phi \right ) +KL\left ( q\left ( \mathbf{z} ;\phi\right )||p\left (\mathbf{ z|x};\theta \right )\right )$

因此

$\begin{aligned} \phi^* &= \underset{\phi}{argmin}\log{p\left ( \mathbf{x};\theta \right )} -ELBO\left ( q,\mathbf{x};\theta,\phi \right )\\ &=\underset{\phi}{argmax}ELBO\left ( q,\mathbf{x};\theta,\phi \right )\end{aligned}$

即目标转换为寻找一组网络参数 $\phi^*$ 使得证据下界 $ELBO\left ( q,\mathbf{x};\theta,\phi \right )$ 最大，可以看作EM算法的E步。这和变分推断中的转换类似，笔者曾专门写了一篇博客讲述变分推断。

生成网络

生成模型的联合分布 $p(\mathbf{x,z};\theta)=p(\mathbf{z};\theta)p(\mathbf{x|z;}\theta)$ 可以分解为两部分：隐变量 𝒛 的先验分布 $p(\mathbf{z};\theta)$ 和条件概率分布 $p(\mathbf{x|z;}\theta)$

先验分布 $p(\mathbf{z};\theta)$ ，为简单起见，一般假设隐变量 $\mathbf{z}$ 的先验分布为各向同性的标准高斯分布 $N(\mathbf{z};0,I)$ 。隐变量𝒛的每一维之间都是独立的。

条件概率分布 $p(\mathbf{x|z;}\theta)$ ，条件概率分布 $p(\mathbf{x|z;}\theta)$ 可以通过生成网络来建模。为简单起见，我们同样用参数化的分布族来表示条件概率分布 $p(\mathbf{x|z;}\theta)$ ，这些分布族的参数可以用生成网络计算得到。

根据变量 $\mathbf{x}$ 的类型不同，可以假设 $p(\mathbf{x|z;}\theta)$ 服从不同的分布族。

1.如果 $x\in \{0,1\}^D$ 是 $D$ 维的二值的向量，比如词袋向量，可以假设 $p(\mathbf{x|z;}\theta)$ 服从多变量的伯努利分布，即

$\begin{aligned} p(\mathbf{x|z;}\theta)&=\prod_{d=1}^{D} p(\mathbf{x_d|z;}\theta)\\ &=\prod_{d=1}^{D} \gamma _d^{x_d}(1-\gamma _d)^{1-x_d} \end{aligned}$

其中 $\gamma_d$ 可以被定义为 $p(\gamma_d=1|z;\theta)$ ，是第 $d$ 维分布的参数，分布的参数 $\gamma =[\gamma_1,\gamma_2,......,\gamma_D]^T$ 可以通过生成网络来预测。

2.如果 $\mathbf{x}\in \mathbb{R}^D$ 是 $D$ 维的连续向量，可以假设 $p(\mathbf{x|z;}\theta)$ 服从对角化协方差的高斯分布，即

$p(\mathbf{x|z;}\theta) = N(\mathbf{x};\mu_G,\sigma_G^2I)$

其中 $\mu_G\in \mathbb{R}^D,\sigma_G\in \mathbb{R}^D$ 同样可以用生成网络来预测。

生成网络 $f_G(\mathbf{z};\theta)$ 的目标是找到一组网络参数 $\theta^*$ 来最大化证据下界 $ELBO\left ( q,\mathbf{x};\theta,\phi \right )$ ，即

$\theta^* = \underset{\theta}{argmax}ELBO\left ( q,\mathbf{x};\theta,\phi \right )$

可以看作EM算法的M步。

汇总

推断网络和生成网络的目标都为最大化证据下界 $ELBO\left ( q,\mathbf{x};\theta,\phi \right )$ ．因此，变分自编码器的总目标函数为

$\begin{aligned} \underset{\theta,\phi}{max}ELBO\left ( q,\mathbf{x};\theta,\phi \right ) &= \underset{\theta,\phi}{max}E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log{\frac{p(\mathbf{x|z};\theta)p(\mathbf{z};\theta)}{q(\mathbf{z};\phi)}}\\ &=\underset{\theta,\phi}{max}E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log {p(\mathbf{x|z};\theta)}-KL(q(\mathbf{z|x};\phi)||p(\mathbf{z};\theta)) \end{aligned}$

其中， $p(\mathbf{z};\theta)$ 为隐变量的先验分布， $\theta,\phi$ 分别为生成网络和推断网络的网络参数

分别来看公式里的两项，

1.公式的第一项期望可以使用采样的方法进行近似计算，根据每个样本 $\mathbf{x}$ ，根据 $q(\mathbf{z|x};\phi)$ 采集 $M$ 个 $\mathbf{z^{(m)}}$ , $1\leq m\leq M$ ,这时，有

$\displaystyle E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log {p(\mathbf{x|z};\theta)} \approx \frac{1}{M}\sum_{m=1}^{M}log {p(\mathbf{x|z^{(m)}};\theta)}$

但是这样计算存在一个问题，就是期望 $E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log {p(\mathbf{x|z};\theta)}$ 依赖于参数 $\phi$ ,在上面的计算中，这个期望变得与 $\phi$ 无关，当使用梯度下降法来学习参数时，期望 $E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log {p(\mathbf{x|z};\theta)}$ 关于 $\phi$ 的梯度为0，这种情况是由于变量 $\mathbf{z}$ 和参数 $\phi$ 之间不是直接的确定性关系，而是一种“采样”关系。可以通过重参数化技巧进行解决，将随机性抽离，从而找到变量 $\mathbf{z}$ 和参数 $\phi$ 之间的确定性函数关系，即，引入一个分布为 $p(\varepsilon )$ 的随机变量 $\varepsilon$ ，而 $\mathbf{z}\overset{\Delta}{=}g(\varepsilon ,\phi)$ ，这样，我们实际上还是要对 $\varepsilon$ 采样，但是确保了可以对参数 $\phi$ 进行求导，即随机变量 $\varepsilon$ 代表了隐变量 $\mathbf{z}$ 的随机性。笔者之前有过思考，不一定正确，即如果需要使用重参数化技巧，那么需要假设隐变量 $\mathbf{z}$ 服从的分布 $q(\mathbf{z|x};\phi)$ 属于距离尺度族分布，即两个分布之间可以通过在其图像上进行伸缩变化或位置移动来相互转换，而其参数正好规定了这些变化，比如一元高斯分布的参数 $\mu$ 和 $\sigma$ 分别规定了概率密度函数图像最高点的x轴位置和图像的伸缩情况， $\sigma$ 越大，图像越扁平，反之， $\sigma$ 越小，图像越瘦高。这样，我们就可以使 $\varepsilon$ 服从标准正态分布，其参数可以将其变成 $q(\mathbf{z|x};\phi)$ （假设 $q(\mathbf{z|x};\phi)$ 也服从高斯分布）。即 $\varepsilon\sim N(0,I)$ ,而 $\mathbf{z = \mu+\varepsilon \odot \sigma} =g(\varepsilon ,\phi)$ 。从而，期望 $E_{\mathbf{ z}\sim q(\mathbf{z};\phi)}\log {p(\mathbf{x|z};\theta)}$ 的计算可以重写为

$\displaystyle E_{\mathbf{ \varepsilon }\sim N(0,I)}\log {p(\mathbf{x|g(\varepsilon,\phi)};\theta)} \approx \frac{1}{M}\sum_{m=1}^{M}\log {p(\mathbf{x} | g(\varepsilon^{(m)} ,\phi);\theta)}$

2.公式的第二项KL散度一般可以直接计算，当 $q(\mathbf{z|x};\phi)$ 和 $p(\mathbf{z};\theta)$ 都属于正态分布时，存在解析解。给定 $D$ 维空间中的两个正态分布 $N(\mu_1,\Sigma _1)$ 和 $N(\mu_2,\Sigma _2)$ ，其KL散度为

$KL\mathbf{(N(\mu_1,\Sigma _1)||N(\mu_2,\Sigma _2))=\frac{1}{2}(tr(\Sigma _2^{-1}\Sigma _1)+(\mu_2-\mu_1)^{T}\Sigma _2^{-1}(\mu_2-\mu_1)-D+\log{\frac{|\Sigma _2|}{|\Sigma _1|}})}$

其中 $tr(\cdot )$ 表示矩阵的迹，矩阵的“迹”为主对角线（从左上方至右下方的对角线）上各个元素的总和。 $|\cdot |$ 表示矩阵的行列式。关于其推导，笔者打算再写一篇文章来做记录。

这样，当 $p(\mathbf{z};\theta) = N(\mathbf{z};0,I)$ 以及 $q(\mathbf{z|x};\phi) =N(z;\mu_I,\sigma_I^{2}I)$ 时，

$KL(q(\mathbf{z|x};\phi ||p(\mathbf{z};\theta))=\frac{1}{2}(tr(\sigma_I^2I)+\mu_I\mu_I^T-d-\log{|\sigma_I^2I|})$

其中 $\mu_I$ 和 $\sigma_I$ 为推断网络 $f_I(\mathbf{x};\phi)$ 的输出。

训练

通过重参数化，变分自编码器可以通过梯度下降法来学习参数，给定一个数据集 $D= \{x^{(n)}\}^N_{n=1}$ ，对于每个样本 $x^{(n)}$ ，随机采样 $M$ 个变量 $\varepsilon ^{(n,m)}$ , $1\leq m\leq M$ ，并通过公式 $\mathbf{z = \mu+\varepsilon \odot \sigma}$ 计算 $\mathbf{z }^{(n,m)}$ 。变分自编码器的目标函数近似为

$\mathbf{\displaystyle f(\phi,\theta;D) = \sum_{n=1}^{N}( \frac{1}{M}\sum_{m=1}^{M}\log {p(\mathbf{x}^{(n)} | z^{(n,m)} ;\theta)}-KL(q(\mathbf{z|x^{(n)}};\phi) ||N(\mathbf{z};0,I))}$

如果采用随机梯度方法，每次从数据集中采集一个样本 $\mathbf{x}$ 和一个对应的随机变量 $\varepsilon$ ，并进一步假设 $p(x|z;\theta)$ 服从多变量的伯努利分布 $\prod_{d=1}^{D} \gamma _d^{x_d}(1-\gamma _d)^{1-x_d}$ ，其中 $\gamma$ 是生成网络 $f_G(\mathbf{z};\theta)$ 的输出， $\lambda$ 为控制方差的超参数，则目标函数可以简化为