原文 : https://www.jiqizhixin.com/graph/technologies/6d2f1b85-5b68-4427-abf1-e29a5075f66e
变分贝叶斯是一类用于贝叶斯估计和机器学习领域中近似计算复杂(intractable)积分的技术。它主要应用于复杂的统计模型中,这种模型一般包括三类变量:观测变量(observed variables, data),未知参数(parameters)和潜变量(latent variables)。在贝叶斯推断中,参数和潜变量统称为不可观测变量(unobserved variables)。变分贝叶斯方法主要是两个目的:
- 近似不可观测变量的后验概率,以便通过这些变量作出统计推断。
- 对一个特定的模型,给出观测变量的边缘似然函数 marginal probability(或称为证据,evidence)的下界。主要用于模型的选择,认为模型的边缘似然值越高,则模型对数据拟合程度越好,该模型产生Data的概率也越高。
对于第一个目的,蒙特卡洛模拟Monte Carlo sampling ,特别是用Gibbs取样的MCMC方法,可以近似计算复杂的后验分布,能很好地应用到贝叶斯统计推断。此方法通过大量的样本估计真实的后验,因而近似结果带有一定的随机性。与此不同的是,变分贝叶斯方法提供一种局部最优,但具有确定解的近似后验方法。
从某种角度看,变分贝叶斯可以看做是EM算法的扩展,因为它也是采用极大后验估计(MAP),即用单个最有可能的参数值来代替完全贝叶斯估计。另外,变分贝叶斯也通过一组相互依然(mutually dependent)的等式进行不断的迭代来获得最优解。
平均场估计下边缘概率的无意义性 (VB-marginals)
注意到Q(Z)估计的是联合概率密度,而对于每一个Qi(Zi),其与真实的边缘概率密度Pi(Zi)的差别可能是很大的。不应该用Qi(Zi)Qi(Zi)来估计真实的边缘密度,比如在一个贝叶斯网络中,你不应该用它来推测某个节点的状态。而这其实是很糟糕的,相比于其他能够使用节点状态信息来进行局部推测的算法,变分贝叶斯方法更不利于调试。
比如一个标准的高斯联合分布P(μ,x)和最优的平均场高斯估计Q(μ,x)。Q选择了在它自己作用域中的高斯分布,因而变得很窄。此时边缘密度Qx(x)变得非常小,完全与Px(x)不同。
瓶颈
变分贝叶斯的思想是建立一种近似于未观测变量(参数和潜在变量)的后验概率。这意味着该解决方案的形式类似于其他贝叶斯推理方法,如 Gibbs sampling,即一个试图描述所有已知变量的分布。
变分贝叶斯的局限性
1。结果很大程度上取决于优化的起点。例子:这篇论文被大量引用,但已知存在严重问题(基于它的软件包后来被撤回,等等)。
2。计算出要优化的内容通常非常复杂。(参见任何关于变分推理的论文)
未来发展方向
将变分推断(variational inference)启发式更新神经网络的内部参数。其性能效果堪比dropout方法,并且在增强学习中有较好表现。