机器学习-白板推导系列(十二)-变分推断（Variational Inference）

最新推荐文章于 2023-10-08 09:53:17 发布

Paul-Huang

最新推荐文章于 2023-10-08 09:53:17 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习-白板推导文章标签：机器学习算法

本文链接：https://blog.youkuaiyun.com/huang1024rui/article/details/113880517

版权

机器学习-白板推导专栏收录该内容

23 篇文章

订阅专栏

本文介绍了变分推断(VI)在频率和贝叶斯角度的应用，通过频率视角下的优化问题和贝叶斯角度的积分难题，详细阐述了VI用于后验推断的近似求解。讲解了VI的核心思想——用q(z)逼近p(z|x)，并通过平均场理论和SGVI的梯度推导，讨论了VI的求解策略，包括SGVI的随机梯度方法和方差缩减技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

12 变分推断（Variational Inference）

12.1 背景介绍

这一小节的主要目的：为什么要使用Variational Inference，Inference到底有什么用。机器学习，我们可以从频率角度和贝叶斯角度两个角度来看，其中频率角度可以被解释为优化问题，贝叶斯角度可以被解释为积分问题。

12.1.1 $频率角度\rightarrow优化问题$

为什么说频率派角度的分析是一个优化问题呢？从回归和SVM两个例子上进行分析。数据集描述为： $\{ (x_i,y_i) \}_{i=1}^N,x_i \in \mathbb{R}^p,y_i \in \mathbb{R}^1$ 。

回归问题
- 回归模型定义： $w^Tx.\tag{12.1.1}$
- 回归模型策略：
  - 其中loss function被定义为：
    $\sum_{i=1}^N || w^Tx_i - y_i ||^2\tag{12.1.2}$
  - 优化可以表达为 $\hat{w} = argmin\ L(w)\tag{12.1.3}$
    这是个无约束优化问题。
- 回归模型求解方法可以分成两种：数值解和解析解。
  - 解析解的解法为：
    $\frac{\partial L(w)}{\partial w} = 0 \Rightarrow w^{\ast} = (X^TX)^{-1}X^TY\tag{12.1.3}$
    其中， $X$ 是一个 $N\times p$ 的矩阵。
  - 数值解常用的是GD算法，也就是 $Gradient\;Descent$ ，或者 $Stochastic\;Gradient\;descent (SGD)$ 。
SVM(分类问题)
- SVM的模型： $sign(w^Tx+b)\tag{12.1.4}$
- SVM的策略：
  loss function为：
  $\left\{ \begin{array}{ll} \min\ \frac{1}{2}w^Tw & \\ s.t. \quad y_i(w^Tx_i + b) \geq 1 & \\ \end{array}\right.\tag{12.1.5}$
  这是一个有约束的Convex优化问题。
- SVM求解方法：
  常用的解决条件为：拉格朗日乘子法、QP方法和Lagrange 对偶。
EM算法
- EM优化目标为：
  $\hat{\theta} = \arg\max\ \log P(x|\theta)\tag{12.1.6}$
- EM优化的迭代算法为：
  $\theta^{(t+1)} = \arg\underset{\theta}{\max}\int_{z} \log P(x,z|\theta)\cdot p(z|x,\theta^{(t)}) dz\tag{12.1.7}$

12.1.2 $贝叶斯角度\rightarrow积分问题$

从贝叶斯的角度来说，这就是一个积分问题，为什么呢？从Bayes公式的表达看：
$P(\theta|x) = \frac{P(x|\theta)P(\theta)}{P(x)}\tag{12.1.8}$

其中， $P(\theta|x)$ 称为后验公式， $P(x|\theta)$ 称为似然函数， $P(\theta)$ 称为先验分布， $P (x)$ 为已知的概率分布，并且 $\int_{\theta}P(x|\theta)P(\theta)d\theta$ 。贝叶斯角度分为 $\color{red}推断(Inference)$ 和 $\color{red}决策$ 。

贝叶斯推断（inference）（求后验 $P(\theta|x)$ ）
什么是推断呢？通俗的说就是求解后验分布 $P(\theta|x)$ ，求解推断可以分为： $\color{red}精确推断$ 和 $\color{red}近似推断$ 。
- 精确推断
  直接求解 $P(\theta|x)$ 。
- 近似推断
  $P(\theta|x)$ 的计算在高维空间的时候非常的复杂，通常不能直接精确的求得，需要采用方法来求一个近似的解。
  - 确定性近似推断
    变分推断(VI)
  - 随机近似推断
    MCMC、MH、Gibbs
贝叶斯决策
数据集 $X$ (N个样本)。我们用数学的语言来表述也就是， $\widetilde{x}$ 为新的样本，求 $p(\widetilde{x}|X)$ ：
$\begin{aligned}{ll}P(\widetilde{x}|X) & = \int_{\theta} P(\widetilde{x},\theta|X) d\theta \\ & = \int_{\theta} P(\widetilde{x}|\theta)\cdot P(\theta|X)d\theta\color{green}{(P(\theta|X)为公式(12.1.8)中的后验)}\\ & = \mathbf{E}_{\theta|X} [P(\hat{x}|\theta)]\end{aligned}\tag{12.1.9}$
本章主讲：
$\color{red}贝叶斯角度\rightarrow贝叶斯推断\rightarrow近似推断\rightarrow确定性近似推断\rightarrow变分推断$

12.2 公式推导

数据
有以下数据：
- $X:observed\;variable\rightarrow X:\left \{x_{i}\right \}_{i=1}^{N}$
- $Z:latent\;variable + parameter\rightarrow Z:\left \{z_{i}\right \}_{i=1}^{N}$
- $(X,Z):complete\;data$
记 $z$ 为隐变量和参数的集合。接着变换概率 $p (x)$ 的形式然后引入分布 $q (z)$ ：
$\color{blue}log\; p(x)=log\; p(x,z)-log\; p(z|x)=log\; \frac{p(x,z)}{q(z)}-log\; \frac{p(z|x)}{q(z)}\tag{12.2.1}$
公式简化
对公式(12.2.1)进行简化，式子两边同时对 $q (z)$ 求积分(期望)：
$左边=\int _{z}q(z)\cdot log\; p(x |\theta )\mathrm{d}z=log\; p(x|\theta )\int _{z}q(z )\mathrm{d}z=log\; p(x|\theta )\tag{12.2.2}$
$右边=\underset{ELBO(evidence\; lower\; bound)}{\underbrace{\int _{z}q(z)log\; \frac{p(x,z|\theta )}{q(z)}\mathrm{d}z}}\underset{KL(q(z)||p(z|x,\theta ))}{\underbrace{-\int _{z}q(z)log\; \frac{p(z|x,\theta )}{q(z)}\mathrm{d}z}}=\underset{变分}{\underbrace{L(q)}} + \underset{\geq 0}{\underbrace{KL(q||p)}}\tag{12.2.3}$
Evidence Lower Bound (ELBO)是变分， $L (q)$ 和 $K L (q ∣ ∣ p)$ 被记为：
$\color{blue}\{ \begin{array}{ll}L(q)&=\int_z q(z)\log\ \frac{p(x,z|\theta)}{q(z)}dz\\ KL(q||p)&= - \int_z q(z)\log\ \frac{p(z|x)}{q(z)}dz \end{array}$
$p (x)$ 是个定值，我们的目的是寻找一个使得 $q (z)$ 与 $p(z|x,\theta)$ 更接近，也就是使 $K L (q ∣ ∣ p)$ 越小越好，也就是要使 $L (q)$ 越大越好：
$\color{blue}\tilde{q}(z)=\arg\underset{q(z)}{\max}\; L(q)\Rightarrow \tilde{q}(z)\approx p(z|x)\tag{12.2.4}$
- $\color{red}L(q)$ 并非普通的函数，而是以函数 $q$ 为自变量的函数，这就是 $\color{red}泛函$ 。泛函可以看成是函数概念的推广，而变分方法是处理泛函的数学领域，和处理函数的普通微积分相对。
- $\color{red}变分法最终寻求的是极值函数：它们使得泛函取得极大或极小值。$
模型求解

平均场理论：把多维变量的不同维度分为 $M$ 组，组与组之间是相互独立的：
$\color{red}q(z)=\prod_{i=1}^{M}q_{i}(z_{i})\tag{12.2.5}$

在这种分解的思想中，我们每次只考虑第 $\color{blue}j$ 个分布，那么令 $\color{blue}q_i(1,2,\cdots,j-1,j+1,\cdots,M)$ 个分布 $\color{blue}fixed$ 。将 $L (q)$ 写作两部分：
$L(q)=\underset{①}{\underbrace{\int _{z}q(z)log\; p(x,z)\mathrm{d}z}}-\underset{②}{\underbrace{\int _{z}q(z)log\; q(z)\mathrm{d}z}}\tag{12.2.6}$
- 对于①：
  $\begin{aligned}①&=\int _{z}q(z)log\; p(x,z)\mathrm{d}z\\ &=\int _{z}\prod_{i=1}^{M}q_{i}(z_{i})log\; p(x,z)\mathrm{d}z_{1}\mathrm{d}z_{2}\cdots \mathrm{d}z_{M}\\ &=\int _{z_{j}}q_{j}(z_{j})\underset{\int _{z-z_{j}}log\; p(x,z)\prod_{i\neq j}^{M}q_{i}(z_{i})\mathrm{d}z_{i}}{\underbrace{\left (\int_{z_1}\int_{z_2}\cdots\int_{z_M}\prod_{i\neq j}^{M}q_{i}(z_{i})log\; p(x,z)\underset{(i\neq j)}{\mathrm{d}z_{1}\mathrm{d}z_{2}\cdots \mathrm{d}z_{M}}\right )}}\mathrm{d}z_{j}\\ &=\int _{z_{j}}q_{j}(z_{j})\cdot E_{\prod_{i\neq j}^{M}q_{i}(z_{i})}[log\; p(x,z)]\cdot \mathrm{d}z_{j}\end{aligned}\tag{12.2.7}$
  因为我们仅仅只关注第 $j$ 项，其他的项都不关注。为了进一步表达计算，我们将：
  $\mathbf{E}_{\prod_{i \neq j}^Mq_i(z_i)}\left[ \log p(x,z) \right] = \log \hat{p}(x,z_j)\tag{12.2.8}$
  那么(12.2.7)式可以写作：
  $\color{red}\begin{aligned}①&=\int _{z}q(z)log\; p(x,z)\mathrm{d}z\\ & = \int_{z_j}q_j(z_j) \log \hat{p}(x,z_j) dz_j\end{aligned}\tag{12.2.9}$
  这里的 $\hat{p}(x,z_j)$ 表示为一个相关的函数形式，假设具体参数未知。
- 对于②：
  $\begin{aligned}②&=\int _{z}q(z)log\; q(z)\mathrm{d}z\\ &=\int _{z}\prod_{i=1}^{M}q_{i}(z_{i})\sum_{i=1}^{M}log\; q_{i}(z_{i})\mathrm{d}z\\ &=\int _{z}\prod_{i=1}^{M}q_{i}(z_{i})[log\; q_{1}(z_{1})+log\; q_{2}(z_{2})+\cdots +log\; q_{M}(z_{M})]\mathrm{d}z\end{aligned}\tag{12.2.10}$
  对其中第一项进行处理：
  $\begin{aligned} &\int _{z}\prod_{i=1}^{M}q_{i}(z_{i})log\; q_{1}(z_{1})\mathrm{d}z\\ & =\int _{z_{1}z_{2}\cdots z_{M}}q_{1}(z_{1})q_{2}(z_{2})\cdots q_{M}(z_{M})\cdot log\; q_{1}(z_{1})\mathrm{d}z_{1}\mathrm{d}z_{2}\cdots \mathrm{d}z_{M}\\ &=\int _{z_{1}}q_{1}(z_{1})log\; q_{1}(z_{1})\mathrm{d}z_{1}\cdot \underset{=1}{\underbrace{\int _{z_{2}}q_{2}(z_{2})\mathrm{d}z_{2}}}\cdot \underset{=1}{\underbrace{\int _{z_{3}}q_{3}(z_{3})\mathrm{d}z_{3}}}\cdots \underset{=1}{\underbrace{\int _{z_{M}}q_{M}(z_{M})\mathrm{d}z_{M}}}\\ &=\int _{z_{1}}q_{1}(z_{1})log\; q_{1}(z_{1})\mathrm{d}z_{1}\end{aligned}\tag{12.2.11}$
  也就是说：
  $\int _{z}\prod_{i=1}^{M}q_{i}(z_{i})log\; q_{k}(z_{k})\mathrm{d}z=\int _{z_{k}}q_{k}(z_{k})log\; q_{k}(z_{k})\mathrm{d}z_{k}\tag{12.2.12}$
  则：
  $\color{red}\begin{aligned}②&=\int _{z}q(z)log\; q(z)\mathrm{d}z\\&=\sum_{i=1}^{M}\int _{z_{i}}q_{i}(z_{i})log\; q_{i}(z_{i})\mathrm{d}z_{i}\\ &=\int _{z_{j}}q_{j}(z_{j})log\; q_{j}(z_{j})\mathrm{d}z_{j}+C\end{aligned}\tag{12.2.13}$
- $L (q)$ 可以写成：
  $\begin{aligned}L(q)&=\underset{①}{\underbrace{\int _{z}q(z)log\; p(x,z)\mathrm{d}z}}-\underset{②}{\underbrace{\int _{z}q(z)log\; q(z)\mathrm{d}z}}\\ &= \int_{z_j}q_j(z_j) \log \hat{p}(x,z_j) dz_j - \int _{z_{j}}q_{j}(z_{j})log\; q_{j}(z_{j})\mathrm{d}z_{j}+C\\ &=-KL(q_j || \hat{p}(x,z_j)) +C \end{aligned}\tag{12.2.14}$
  其中 $-KL(q_j || \hat{p}(x,z_j)) \leq 0$ ，根据公式(12.2.4)可得：
  $\color{red}\begin{aligned}\tilde{q}(z)&=\arg\underset{q(z)}{\max}\; L(q)\\ & = \arg\underset{q_j(z_j)}{\max}\; -KL(q_j || \hat{p}(x,z_j))\\ & = \arg\underset{q_j(z_j)}{\min}\;KL(q_j || \hat{p}(x,z_j))\end{aligned}\tag{12.2.15}$
  当 $\color{red}\log \hat{p}(x,z_j)=\mathbf{E}_{\prod_{i \neq j}^Mq_i(z_i)}\left[ \log p(x,z) \right]取最小值$ ：
  $\color{red}\log q_j(z_j) = \mathbf{E}_{\prod_{i \neq j}q_i(z_i)}\left[ \log p(x,z|\theta) \right] + C\tag{12.2.16}$
  - $\color{blue}公式(12.2.16)就是VI算法的基本思路$ 。但是现实生活中 $z$ 很难求解，因此需要用平均场理论进行一下化简。
  - 下一节将回归EM算法，并给出求解的过程。

12.3 再回首

Variational Inference(VI)的核心思想是在于用一个分布 $q (z)$ 来近似得到 $p (z ∣ x)$ 。其中优化目标为：
$\hat{q} = argmin\ KL(q||p)$
在这个求解中，主要想求的是 $q (z)$ ，那么需要弱化 $\theta$ 的作用。所以，计算的目标函数为：
$\color{blue}\hat{q} = \arg\min_{q} KL(q||p) = \arg\max_q \mathcal{L}(q)\tag{12.3.1}$
所以本节对上一节的一些地方进行解释、对EM算法的符号进行规范化处理，以及对迭代方法进行求解。

平均场理论解释
平均场理论：把多维变量的不同维度分为 $M$ 组，组与组之间是相互独立的：
$\color{red}q(z)=\prod_{i=1}^{M}q_{i}(z_{i})\tag{12.3.2}$
注： ${\color{red} z_i表示的不是一个数，而是一个数据维度的集合，}$ ${\color{red} 它表示的不是一个维度，而是一个类似的最大团，也就是多个维度凑在一起。}$
数学符号规范化（仔细与上一节进行对比）
1. 数据
  有以下数据：
  - $X:observed\;variable\rightarrow X:\left \{x^{(i)}\right \}_{i=1}^{N}$
  - $Z:latent\;variable + parameter\rightarrow Z:\left \{z^{(i)}\right \}_{i=1}^{N}$
  - $(X,Z):complete\;data$
2. ELBO和KL
  在这里我们弱化了相关参数 $\theta$ ，也就是求解过程中，不太考虑 $\theta$ 起到的作用。展示一下似然函数:
  $\log p_{\theta}(X) = \log \prod_{i=1}^N p_{\theta}(x^{(i)}) = \sum_{i=1}^N \log p_{\theta}(x^{(i)})\tag{12.3.3}$
  目标是使每一个 $x^{(i)}$ 最大，所以将对ELBO和 $K L (p ∣ ∣ q)$ 进行规范化表达：
  - $\color{blue}ELBO$ (第十讲：公式(10.5.6))：
    $\mathbf{E}_{q(z)}\left[ \log \frac{p_{\theta}(x^{(i)},z)}{q(z)} \right] = \mathbf{E}_{q(z)}\left[ \log p_{\theta}(x^{(i)},z) \right]+ H(q(z))\tag{12.3.4}$
  - $\color{blue}KL$ (第十讲：公式(10.5.2)):
    $\int q(z)\cdot \log \frac{q(z)}{p_{\theta}(z|x^{(i)})} dz\tag{12.3.5}$
  - $\color{blue}\log\;q_j(z_j)$ (本节：公式(12.2.16))
    $\begin{aligned} & \log q_j(z_j)\\ & = \mathbf{E}_{\prod_{i \neq j} q_i(z_i)}\left[ \log p_{\theta} (x^{(i)},z) \right] + C \\ & = \int_{q_1} \int_{q_2} \cdots \int_{q_{j-1}}\int_{q_{j+1}} \cdots \int_{q_{M}} q_1q_2\cdots q_{j-1}q_{j+1} \cdots q_M \log p_{\theta} (x^{(i)},z)dq_1dq_2 \cdots dq_{j-1}dq_{j+1} \cdots dq_{M} \\ \end{aligned}\tag{12.3.6}$
VI算法的具体求解
根据 $公式 (12.2.16)$ 使用迭代算法来进行求解：
$\color{red}\begin{array}{ll} \hat{q}_1(z_1) = \int_{q_2} \cdots \int_{q_{M}} q_2 \cdots q_M \left[ \log p_{\theta}(x^{(i)},z) \right]dq_2 \cdots dq_{M} \\ \hat{q}_2(z_2) = \int_{\hat{q}_1(z_1)}\int_{q_3} \cdots \int_{q_{M}} \hat{q}_1q_3 \cdots q_M \left[ \log p_{\theta}(x^{(i)},z) \right]\hat{q}_1dq_2 \cdots dq_{M} \\ \vdots \\ \hat{q}_M(z_M) = \int_{\hat{q}_1} \cdots \int_{\hat{q}_{M-1}} \hat{q}_1 \cdots \hat{q}_{M-1} \left[ \log p_{\theta}(x^{(i)},z) \right]d\hat{q}_1 \cdots d\hat{q}_{M-1}\end{array}\tag{12.3.7}$
如果将 ${q}_1,{q}_2,\cdots,{q}_M$ 看成一个个的坐标点，那么随着计算的深入，知道的坐标点越来越多，这实际上就是一种坐标上升的方法(Coordinate Ascend)。

这是一种迭代算法，那怎么考虑迭代的停止条件呢？设置当 $\color{blue}\mathcal{L}^{(t+1)} \leq \mathcal{L}^{(t)}$ 时停止迭代。
VI算法的整体步骤
针对平均场变分分布， $\color{green}坐标上升近似推断算法（CAVI）$ 是最常见的优化方法。CAVI交替地更新每个隐变量，更新时固定其他的隐变量的变分分布参数，用来计算当前隐变量 $z_j$ 的坐标上升公式。CAVI的算法步骤如下图所示。

用一张图来表示 $q$ 分布的变化。
Mean Field Theory(平均场理论)的存在问题
- $\color{red}假设太强$
  首先这个假设太强了。在假设中，假设变分后验分式是一种完全可分解的分布。实际上，这样的适用条件挺少的。大部分时候都并不会适用。
- $\color{red}Intractable$
  本来就是因为后验分布 $p (Z ∣ X)$ 的计算非常的复杂，所以才使用变分推断来进行计算。但这个迭代的方法也非常的难以计算，
  $\log q_j(z_j) = \mathbf{E}_{\prod_{i \neq j}q_i(z_i)}\left[ \log p(X,Z|\theta) \right] + C\tag{12.3.8}$
  并且公式(12.3.8)的计算也非常的复杂。所以需要寻找一种更加优秀的方法，比如Stein Disparency等等。Stein变分是个非常Fashion的东西，机器学习理论中非常强大的算法，以后会详细的分析。

12.4 随机梯度变分推断-SGVI-1

在上一小节分析了 $\color{green}Mean\;Field\;Theory\;Variational\;Inference$ (平均场论变分推断)，通过平均假设来得到变分推断的理论，是一种 $Classical\;VI$ ，可以将其看成 $\color{green}Coordinate\;Ascend$ (坐标上升)。
本节为了克服Mean Field Theory的存在问题，介绍另一种方法是 $\color{green}Stochastic\;Gradient\;Variational\;Inference$ (SGVI，随机梯度变分推断)。
对于隐变量参数 $z$ 和数据集 $x$ 。
- $\color{red}z \longrightarrow x$ 是Generative Model，也就是 $p (x ∣ z)$ 和 $p (x, z)$ ，这个过程也被我们称为 $\color{red}Decoder$ 。
- $\color{red}x \longrightarrow z$ 是Inference Model，表达关系是 $p (z ∣ x)$ ，这个过程被我们称为 $\color{red}Encoder$ 。

本节先对SGVI参数规范，然后SGVI的梯度推导。

SGVI参数规范
本节的 $\color{green}Stochastic\;Gradient\;Variational\;Inference (SGVI)$ 方法的基本思路（此处参数更新和平均场论变分推理方法的参数的更新方法类似）为：
$\color{red}\phi^{(t+1)} \longrightarrow \phi^{(t)} + \lambda^{(t)}\nabla {L}(q)\tag{12.4.1}$
其中， $q (z ∣ x)$ 简化表示为 $q (z)$ ；令 $q (z)$ 是一个固定形式的概率分布， $\phi$ 为这个分布的参数，那么这个概率可写成 $\color{blue}q_{\phi}(z)$ 。 $\color{blue}目标就是求解\nabla {L}(q)(\nabla_{\phi}{L}(\phi))$ 。
- 那么ELBO( $\color{blue}L(q)=\int_z q(z)\log\ \frac{p(x,z|\theta)}{q(z)}dz$ )被记为：
  $\color{red}ELBO = {L}(\phi)= \mathbf{E}_{q_{\phi}(z)}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z) \right]\tag{12.4.2}$
- $log\;p(x)$ （ $log\; p(x)=ELBO+KL(q||p)$ ）可以写为：
  $\log p_{\theta}(x^{(i)}) = ELBO + KL(q||p) \geq {L}(\phi)\tag{12.4.3}$
  因此求解目标转换成：
  $\hat{p} = \arg\max_{\phi} {L}(\phi)\tag{12.4.4}$
SGVI的梯度推导
1. 根据公式(12.4.1)和公式(12.4.2)得：
  $\color{blue}\begin{aligned}\nabla_{\phi }L(\phi )& =\nabla_{\phi }E_{q_{\phi }}[log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\\ &=\nabla_{\phi }\int q_{\phi }(z)[log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\mathrm{d}z\\ &=\underset{①}{\underbrace{\int \nabla_{\phi }q_{\phi }(z)\cdot [log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\mathrm{d}z}}+\underset{②}{\underbrace{\int q_{\phi }(z)\nabla_{\phi }[log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\mathrm{d}z}}\end{aligned}\tag{12.4.5}$
2. 在对其中①和②单独计算：
  $\begin{aligned}②&=\int q_{\phi }(z)\nabla_{\phi }[\underset{与\phi 无关}{\underbrace{log\; p_{\theta }(x,z)}}-log\; q_{\phi }(z)]\mathrm{d}z\\ &=-\int q_{\phi }(z)\nabla_{\phi }log\; q_{\phi }(z)\mathrm{d}z\\ &=-\int q_{\phi }(z)\frac{1}{q_{\phi }(z)}\nabla_{\phi }q_{\phi }(z)\mathrm{d}z\\ & =-\int \nabla_{\phi }q_{\phi }(z)\mathrm{d}z\\ &=-\nabla_{\phi }\int q_{\phi }(z)\mathrm{d}z\\ &=-\nabla_{\phi }1=0\end{aligned}\tag{12.4.6}$
  因此公式(12.4.5)可以简化为：
  $\begin{aligned}\nabla_{\phi }L(\phi )=① &=\int {\color{Red}{\nabla_{\phi }q_{\phi }(z)}}\cdot [log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\mathrm{d}z\\ &=\int {\color{Red}{q_{\phi }(z)\nabla_{\phi }log\; q_{\phi }(z)}}\cdot [log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\mathrm{d}z\\ &=E_{q_{\phi }}[(\nabla_{\phi }log\; q_{\phi }(z))(log\; p_{\theta }(x,z)-log\; q_{\phi }(z))]\end{aligned}\tag{12.4.7}$
  其中红色部分是根据公式(12.4.6)的第二行到第四行得到的。因此：
  $\color{red}\nabla_{\phi} {L}(\phi) = \mathbf{E}_{q_{\phi}} \left[ \nabla_{\phi}\log q_{\phi} (\log p_{\theta}(x^{(i)},z) - \log q_{\phi}) \right]\tag{12.4.8}$
  那么如何求这个期望呢？采用的是蒙特卡罗采样法，假设 $z^l \sim q_{\phi} (z)\ l = 1, 2, \cdots, L$ ，那么有：
  $\color{blue}\nabla_{\phi} {L}(\phi) \approx \frac{1}{L} \sum_{l=1}^L \nabla_{\phi}\log q_{\phi}(z^{(l)})\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z^{(l)})\right]\tag{12.4.9}$

12.5 随机梯度变分推断-SGVI-2

本节继上一节的内容，介绍Variance Reduction(方差缩减) 。

存在问题
上节最后的公式(12.4.8)：
$\nabla_{\phi} {L}(\phi) = \mathbf{E}_{q_{\phi}} \left[ {\color{red}\nabla_{\phi}\log q_{\phi}}( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}) \right]$
这样的求法存在问题？
- 一方面在采样的过程中，可能采到 $\color{red}q_{\phi}(z) \longrightarrow 0$ 的点，对于log函数来说， $\color{red}\underset{x\longrightarrow 0}{\lim}log\;x = \infty$ ，那么梯度的变化会非常的剧烈，非常的不稳定。就会出现 $High\;Variance$ 的问题，没有办法求解。
- 另一方面 $\color{red}\hat{\phi} \longrightarrow q(z)$ 也有误差，此误差和梯度剧烈变化带来的误差，误差叠加，这算法根本没有办法用。
解决方法
- 整体思路：利用一个确定的解 $\color{red}p(\epsilon)$ ，简化计算。因为 $z$ 来自于 $q_{\phi}(z|x)$ ，将 $z$ 中的随机变量给解放出来。
- 改写方法
  即：使用 $\color{red}转换z = g_{\phi}(\epsilon, x^{(i)})$ ，其中 $\epsilon \sim p(\epsilon)$ 。这样做有什么好处呢？
  - 原来的 $\nabla_{\phi} \mathbf{E}_{q_{\phi}}[\cdot]$ 将转换为 $\mathbf{E}_{p(\epsilon)}[\nabla_{\phi}(\cdot)]$ ， $\color{blue}方差$ 不再是连续的关于 $\phi$ 的采样，可以有效的降低方差。
  - 并且， $z$ 是一个关于 ${\epsilon}$ 的函数，我们将随机性转移到了 ${\epsilon}$ ，那么问题就可以简化为：
    $\color{red}z \sim q_{\phi}(z|x^{(i)}) \longrightarrow \epsilon \sim p(\epsilon)\tag{12.5.1}$
  - 因为 $\int q_{\phi}(z|x^{(i)})dz = \int p(\epsilon)d\epsilon = 1$ ，则 $q_{\phi}(z|x^{(i)})$ 和 $p(\epsilon)$ 之间存在一个变换关系，即：
    $\color{red}|q_{\phi}(z|x^{(i)})dz| = |p(\epsilon)d\epsilon|\tag{12.5.2}$
- 改写 $\nabla_{\phi} \mathcal{L}(\phi)$
  改写 $\nabla_{\phi} \mathcal{L}(\phi)$ ：
  $\begin{aligned} \nabla_{\phi} \mathcal{L}(\phi) & = \nabla_{\phi} \mathbf{E}_{q_{\phi}}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] \\ &= \nabla_{\phi} \int \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]q_{\phi} dz \\ & = \nabla_{\phi} \int \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]p(\epsilon) d\epsilon \\ & = \nabla_{\phi} \mathbf{E}_{p(\epsilon)}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] ({\color{blue}\mathbf{E}_{p(\epsilon)}中的p(\epsilon)与梯度\phi无关})\\ & = \mathbf{E}_{p(\epsilon)} \nabla_{\phi} \left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}) \right] \\ & = \mathbf{E}_{p(\epsilon)}\nabla_{z}\left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}z \right] \\ & = \mathbf{E}_{p(\epsilon)}\nabla_{z}\left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}z \right] \\ & = \mathbf{E}_{p(\epsilon)}\nabla_{z}\left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}g_{\phi}(\epsilon, x^{(i)}) \right]\end{aligned}\tag{12.5.3}$
  即：
  $\nabla_{\phi} \mathcal{L}(\phi)= \mathbf{E}_{p(\epsilon)}\nabla_{z}\left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}g_{\phi}(\epsilon, x^{(i)}) \right]\tag{12.2.4}$
  因为 $p(\epsilon)$ 的采样与 $\phi$ 无关，求解步骤可以是：
  - 先求关于 $\phi$ 的梯度；
  - 然后再求关于 $z$ 的梯度；
  - 最后，我们再对结果进行采样， $\epsilon^{(l)} \sim p(\epsilon), \quad l = 1, 2, \cdots, L$ 。
    那么这三者之间就互相隔离开了。
小结
SGVI可以简要的表述为：对于分布为 $q_{\phi}(Z|X)$ ， $\phi$ 为参数，参数的更新方法为：
$\color{red}\phi^{(t+1)} \longrightarrow \phi^{(t)} + \lambda^{(t)}\nabla_{\phi} \mathcal{L}(\phi)\tag{12.5.5}$
对公式(12.2.4)使用蒙特卡洛方法， $\nabla_{\phi} \mathcal{L}(\phi)$ 为：
$\color{red}\nabla_{\phi} \mathcal{L}(\phi) \approx \frac{1}{L} \sum_{i=1}^L \nabla_{z} \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}g_{\phi}(\epsilon, x^{(i)}) \right]\tag{12.5.6}$
其中 $\longleftarrow g_{\phi}(\epsilon^{(i)},x^{(i)})$ ， $\epsilon^{(l)} \sim p(\epsilon), \quad l = 1, 2, \cdots, L$ 。