机器学习系列：变分推断

最新推荐文章于 2023-08-21 22:29:20 发布

不一样的等待12305

最新推荐文章于 2023-08-21 22:29:20 发布

阅读量390

点赞数

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/qq_39068872/article/details/105177861

版权

机器学习专栏收录该内容

8 篇文章

订阅专栏

1. Introduction

我们已经知道概率模型可以分为，频率派的优化问题和贝叶斯派的积分问题。从贝叶斯角度来看推断，对于 $\hat{x}$ 这样的新样本，需要得到： $p(\hat{x}|X)=\int_\theta p(\hat{x},\theta|X)d\theta=\int_\theta p(\theta|X)p(\hat{x}|\theta,X)d\theta$ 如果新样本和数据集独立，那么推断就是概率分布依参数后验分布的期望。

我们看到，推断问题的中心是参数后验分布的求解，推断分为：

精确推断
近似推断-参数空间无法精确求解
- 确定性近似-如变分推断,找到近似的函数进行推断
- 随机近似-如 MCMC，MH，Gibbs，通过采样的方式进行近似推断

2. 基于平均场假设的变分推断

我们记 $Z$ 为隐变量和参数的集合， $Z_i$ 为第 $i$ 维的参数，于是，回顾一下 EM 中的推导： $\log p(X)=\log p(X,Z)-\log p(Z|X)=\log\frac{p(X,Z)}{q(Z)}-\log\frac{p(Z|X)}{q(Z)}$ 左右两边分别积分： $Left:\int_Zq(Z)\log p(X)dZ=\log p(X)\\ Right:\int_Z[\log \frac{p(X,Z)}{q(Z)}-\log \frac{p(Z|X)}{q(Z)}]q(Z)dZ=ELBO+KL(q,p)$ 令 $L (q) = E L B O$ ，第二个式子可以写为变分和 KL 散度的和： $L (q) + K L (q, p)$ 我们的目的是找到一个q近似等于p，观察 $K L$ 散度的式子 $:\int_Z\log \frac{p(Z|X)}{q(Z)}q(Z)dZ$ ,如果p=q，那么 $K L = 0$ ，而式子左端是个固定值，那么就相当于对 $L (q)$ 最大值。 $\hat{q}(Z)=\mathop{argmax}\limits_{q(Z)}L(q)$ 假设 $q (Z)$ 可以划分为 $M$ 个组（平均场近似）： $q(Z)=\prod\limits_{i=1}^Mq_i(Z_i)$ 因此，在 $L(q)=\int_Zq(Z)\log p(X,Z)dZ-\int_Zq(Z)\log{q(Z)}$ 中，看 $p(Z_j)$ ，第一项： $\begin{aligned}\int_Zq(Z)\log p(X,Z)dZ&=\int_Z\prod\limits_{i=1}^Mq_i(Z_i)\log p(X,Z)dZ\\ &=\int_{Z_j}q_j(Z_j)\int_{Z-Z_{j}}\prod\limits_{i\ne j}q_i(Z_i)\log p(X,Z)dZ\\ &=\int_{Z_j}q_j(Z_j)\mathbb{E}{\prod\limits{i\ne j}q_i(Z_i)}[\log p(X,Z)]dZ_j \end{aligned}$
第二项： $\int_Zq(Z)\log q(Z)dZ=\int_Z\prod\limits_{i=1}^Mq_i(Z_i)\sum\limits_{i=1}^M\log q_i(Z_i)dZ$ 展开求和项第一项为： $\int_Z\prod\limits_{i=1}^Mq_i(Z_i)\log q_1(Z_1)dZ=\int_{Z_1}q_1(Z_1)\log q_1(Z_1)dZ_1$ 所以： $\int_Zq(Z)\log q(Z)dZ=\sum\limits_{i=1}^M\int_{Z_i}q_i(Z_i)\log q_i(Z_i)dZ_i=\int_{Z_j}q_j(Z_j)\log q_j(Z_j)dZ_j+Const$ 两项相减，令 $\mathbb{E}{\prod\limits{i\ne j}q_i(Z_i)}[\log p(X,Z)]=\log \hat{p}(X,Z_j)$ 可以得到： $-\int_{Z_j}q_j(Z_j)\log\frac{q_j(Z_j)}{\hat{p}(X,Z_j)}dZ_j\le 0$ 于是最大的 $q_j(Z_j)=\hat{p}(X,Z_j)$ 才能得到最大值。我们看到，对每一个 $q_j$ ，都是固定其余的 $q_i$ ，求这个值，于是可以使用坐标上升的方法进行迭代求解，上面的推导针对单个样本，但是对数据集也是适用的。
基于平均场假设的变分推断存在一些问题：