从EM到VI，最后落地VAE_em算法和vae-优快云博客

本文链接：https://blog.youkuaiyun.com/huang1024rui/article/details/121229532

1. 初识EM、VI与VAE

1.1. EM算法

EM是一种从频率角度解决优化问题（常见的频率角度模型有：回归模型、SVM等）。
EM常与MLE进行对比。
- MLE（极大似然估计）
- EM算法

1.2 VI算法

变分推断（Variational Inference）解决的是贝叶斯角度的积分问题，是贝叶斯推断的确定性近似推断。
利用EM的思路，把 $\log p(x)$ 堪称 $E L B O$ 和 $K L$ 散度的结合。再把 $E L B O$ 看成泛函，利用平均场理论进行求解。

1.3 VAE

VAE可以看成是从 $\color{red}变分和贝叶斯的角度来解决AutoEncoder问题$ 。

因为用到了变分，所以常常是先看VI，再看VAE。
VAE本质上就是：
- 常规的自编码器的基础上，对encoder的结果（在VAE中对应着计算均值的网络）加上了 $\color{red}“高斯噪声”$ ，使得结果decoder能够对噪声有鲁棒性；
- 而那个额外的KL loss（ $\color{red}目的是让均值为0，方差为1$ ），事实上就是相当于对encoder的一个正则项，希望encoder出来的东西均有零均值。

2. EM与VI的异同

2.1 相同点

2.1.1 都是处理具有隐变量的问题

$\color{red}都是对MLE无法处理的情况进行处理$ 。明确参数的意义：

$X$ ：Observed data， $(x_1, x_2, \cdots, x_N)$ 。
$(X, Z)$ ：Complete data， $\{ (x_1,z_1),(x_2,z_2),\cdots,(x_N,z_N) \}$ 。
$\theta$ ：parameter， $\theta=\{ P_1, \cdots, P_k, \mu_1, \cdots, \mu_k,\Sigma_1,\cdots,\Sigma_k \}$ 。

Maximum Likelihood Estimation求解参数
1. $P (x)$ 可以表示为：
  $\begin{aligned}p(x)&= \sum_Z p(x,Z) \\ & = \sum_{k=1}^K p(x,z = C_k) \\ & = \sum_{k=1}^K p(z = C_k)\cdot p(x|z=C_k) \\ & = \sum_{k=1}^K p_k \cdot \mathcal{N}(x|\mu_k,\Sigma_k)\end{aligned}\tag{2.1}$
  对比公式(11.1.1)可见几何角度的结果中的 $\alpha_k$ 就是混合模型中的 $p_k$ ，权重即概率。
2. 尝试使用MLE求解GMM参数
  尝试使用MLE求解GMM参数的解析解。
  
  实际上GMM一般使用EM算法求解， $\color{blue}因为使用MLE求导后，无法求出具体解析解$ 。所以接下来我们来看看为什么MLE无法求出解析解。
  
  $\begin{aligned}\hat{\theta }_{MLE}&=\underset{\theta }{argmax}\; log\; p(X)\\ &=\underset{\theta }{argmax}\; log\prod_{i=1}^{N}p(x_{i})\\ &=\underset{\theta }{argmax}\sum_{i=1}^{N}log\; p(x_{i})\\ &=\underset{\theta }{argmax}\sum_{i=1}^{N}{\color{Red}{log\sum _{k=1}^{K}}}p_{k}\cdot N(x_{i}|\mu _{k},\Sigma _{k})\end{aligned}\tag{2.2}$
  想要求的 $\theta$ 包括， $\color{blue}\theta=\{ p_1, \cdots, p_K, \mu_1, \cdots, \mu_K,\Sigma_1,\cdots,\Sigma_K \}$ 。
MLE的问题
按照之前的思路，是对每个参数进行求偏导来计算最终的结果。但 $\log$ 函数里是一个求和的形式，而不是求积的形式。这意味着计算非常的困难。甚至根本就求不出解析解。如果是单一的Gaussian Distribution：
$\log p(x_i) = \log \frac{1}{\sqrt{2 \pi} \sigma} \exp\left\{ -\frac{(x_i - \mu)^2}{2\sigma} \right\}.\tag{2.3}$
根据 $\log$ 函数优秀的性质，这个问题是可以解的。但是，很不幸 $\color{red}公式(2.2)后面是一个求和的形式$ 。所以，直接使用MLE求解GMM，无法得到解析解。对于含有隐变量的模型来说使用EM算法是更为合适的。

2.2.2 都是把 $\log p(x)$ 化简为ELBO+KL散度

有以下数据：

$X:observed\;variable\rightarrow X:\left \{x_{i}\right \}_{i=1}^{N}$
$Z:latent\;variable + parameter\rightarrow Z:\left \{z_{i}\right \}_{i=1}^{N}$
$(X,Z):complete\;data$

记 $z$ 为隐变量和参数的集合。接着变换概率 $p (x)$ 的形式然后引入分布 $q (z)$ ：

$\color{blue}log\; p(x)=log\; p(x,z)-log\; p(z|x)=log\; \frac{p(x,z)}{q(z)}-log\; \frac{p(z|x)}{q(z)}\tag{2.4}$
3. 公式简化
对公式(12.2.1)进行简化，式子两边同时对 $q (z)$ 求积分(期望)：
$左边=\int _{z}q(z)\cdot log\; p(x |\theta )\mathrm{d}z=log\; p(x|\theta )\int _{z}q(z )\mathrm{d}z=log\; p(x|\theta )\tag{2.5}$
$右边=\underset{ELBO(evidence\; lower\; bound)}{\underbrace{\int _{z}q(z)log\; \frac{p(x,z|\theta )}{q(z)}\mathrm{d}z}}\underset{KL(q(z)||p(z|x,\theta ))}{\underbrace{-\int _{z}q(z)log\; \frac{p(z|x,\theta )}{q(z)}\mathrm{d}z}}=\underset{变分}{\underbrace{L(q)}} + \underset{\geq 0}{\underbrace{KL(q||p)}}\tag{2.6}$
Evidence Lower Bound (ELBO)是变分， $L (q)$ 和 $K L (q ∣ ∣ p)$ 被记为：
$\color{blue}\{ \begin{array}{ll}L(q)&=\int_z q(z)\log\ \frac{p(x,z|\theta)}{q(z)}dz\\ KL(q||p)&= - \int_z q(z)\log\ \frac{p(z|x)}{q(z)}dz \end{array}$

2.2 不同点

2.2.1 EM算法

在把 $\log p(x)$ 转换为公式(2.7)后,
$\color{red}log\; p(x|\theta )=ELBO+KL(q(z)||p(z|x,\theta ))\tag{2.7}$

EM算法是(EM算法实例):

第一步是E：求出期望；

固定 $\theta^{(t)}$ ，改变 $q (z)$ ，使得 ${KL(q(z)||p(z|x,\theta ))}={-\int _{z}q(z)log\; \frac{p(z|x,\theta )}{q(z)}\mathrm{d}z}=0$ ，求期望。即：
$\color{red}\log\; p(x|\theta ^{(t)})={\int _{z}q(z)log\; \frac{p(x,z|\theta )}{q(z)}\mathrm{d}z}=ELBO.\tag{2.8}$
第二步是M：将期望最大化。

固定 $q (z)$ ，将期望最大化.极大化：
$\color{red}\theta^{(t+1)} = \arg\underset{\theta}{\max} \mathbb{E}_{z\sim P(z|x,\theta^{(t)})}\left[ \log P(x,z|\theta) \right]\tag{2.9}$

2.2.2 VI算法

在把 $\log p(x)$ 转换为公式(2.7)后,
$\color{red}log\; p(x|\theta )=ELBO+KL(q(z)||p(z|x,\theta ))\tag{2.7}$
VI算法使用平均场理论，再进一步分布求解。

平均场理论：把多维变量的不同维度分为 $M$ 组，组与组之间是相互独立的：
$\color{red}q(z)=\prod_{i=1}^{M}q_{i}(z_{i})\tag{2.10}$

3. VI与VAE异同

VAE利用了VI中的 $K L (p (x) ∣ ∣ q (x))$ 的性质，其实质是在AutoEncoder中引入贝叶斯模型。
VAE 利用了EM算法和VI算法对 $E L B O$ 的化简：

$\begin{aligned}\color{red}\mathcal{L}(\theta,\phi;\mathtt{x}^{(i)}) &=\sum_{\mathbf{z}} q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)}) \log \left(\frac{p_{\theta}(\mathbf{x}, \mathbf{z})}{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}\right)=\sum_{\mathtt{z}} q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)}) \log \left(\frac{p_{\theta}(\mathtt{x}^{(i)}| \mathtt{z}) p_{\theta}(\mathtt{z})}{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}\right) \\ &=\sum_{\mathbf{z}} q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})\left[\log \left(p_{\theta }(\mathtt{x}^{(i)}|\mathtt{z})\right)+\log \left(\frac{p_{\theta}(\mathbf{z})}{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}\right)\right] \\ &\color{red}= -D_{KL}(q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})||p_{\theta}(\mathtt{z}))+ \mathbb{E}_{q_{\phi}(\mathtt{z}|\mathtt{x}^{(i)})}[\log p_{\theta }(\mathtt{x}^{(i)}|\mathtt{z})]\end{aligned}\tag{3.1}$