19、近似推断技术解析

近似推断技术详解

onion

于 2025-11-07 12:38:34 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习：从理论到实践文章标签：近似推断变分推断证据下界

本文链接：https://blog.youkuaiyun.com/onion/article/details/154591918

深度学习：从理论到实践专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

近似推断技术解析

1. 引言

在深度学习领域，许多概率模型的训练颇具挑战，原因在于进行推断操作困难重重。通常，我们会面对一组可见变量 (v) 和一组潜在变量 (h)，推断的挑战往往体现在计算 (p(h|v)) 或对其求期望上，而这些操作在最大似然学习等任务中不可或缺。

部分简单的单层图形模型，如受限玻尔兹曼机和概率主成分分析（PCA），其推断操作相对容易。然而，多数具有多层隐藏变量的图形模型，其后验分布难以处理，精确推断需耗费指数级的时间，即便一些单层模型（如稀疏编码）也存在此问题。接下来，我们将介绍几种应对这些棘手推断问题的技术。

2. 推断作为优化问题

许多解决困难推断问题的方法，都基于将精确推断描述为一个优化问题这一观点。通过对底层优化问题进行近似处理，便可推导出近似推断算法。

假设我们有一个由观测变量 (v) 和潜在变量 (h) 构成的概率模型，我们期望计算观测数据的对数概率 (\log p(v; \theta))。但当边缘化 (h) 的成本过高时，计算 (\log p(v; \theta)) 会变得异常困难。此时，我们可以计算 (\log p(v; \theta)) 的一个下界 (L(v, \theta, q))，即证据下界（ELBO），也被称为负变分自由能。其定义如下：
[L(v, \theta, q) = \log p(v; \theta) - D_{KL}(q(h|v) \parallel p(h|v; \theta))]
其中，(q) 是关于 (h) 的任意概率分布。由于 (\log p(v)) 与 (L(v, \theta, q)) 的差值由 KL 散度给出，且 KL 散度始终非负，所以 (L)