近似推断技术解析
1. 引言
在深度学习领域,许多概率模型的训练颇具挑战,原因在于进行推断操作困难重重。通常,我们会面对一组可见变量 (v) 和一组潜在变量 (h),推断的挑战往往体现在计算 (p(h|v)) 或对其求期望上,而这些操作在最大似然学习等任务中不可或缺。
部分简单的单层图形模型,如受限玻尔兹曼机和概率主成分分析(PCA),其推断操作相对容易。然而,多数具有多层隐藏变量的图形模型,其后验分布难以处理,精确推断需耗费指数级的时间,即便一些单层模型(如稀疏编码)也存在此问题。接下来,我们将介绍几种应对这些棘手推断问题的技术。
2. 推断作为优化问题
许多解决困难推断问题的方法,都基于将精确推断描述为一个优化问题这一观点。通过对底层优化问题进行近似处理,便可推导出近似推断算法。
假设我们有一个由观测变量 (v) 和潜在变量 (h) 构成的概率模型,我们期望计算观测数据的对数概率 (\log p(v; \theta))。但当边缘化 (h) 的成本过高时,计算 (\log p(v; \theta)) 会变得异常困难。此时,我们可以计算 (\log p(v; \theta)) 的一个下界 (L(v, \theta, q)),即证据下界(ELBO),也被称为负变分自由能。其定义如下:
[L(v, \theta, q) = \log p(v; \theta) - D_{KL}(q(h|v) \parallel p(h|v; \theta))]
其中,(q) 是关于 (h) 的任意概率分布。由于 (\log p(v)) 与 (L(v, \theta, q)) 的差值由 KL 散度给出,且 KL 散度始终非负,所以 (L)
近似推断技术详解
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



