60、概率模型中的变分近似与信息最大化技术

algae

于 2025-11-11 09:11:31 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：贝叶斯思维：从推理到决策文章标签：变分近似局部近似 KL散度

本文链接：https://blog.youkuaiyun.com/algae/article/details/154903693

贝叶斯思维：从推理到决策专栏收录该内容

65 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

概率模型中的变分近似与信息最大化技术

在概率模型的参数估计和推理过程中，精确计算后验分布往往具有挑战性，尤其是在高维参数空间或非标准分布的情况下。本文将介绍几种常见的变分近似方法，包括局部近似、KL 变分近似，以及它们在信息最大化和信念传播中的应用。

1. 控制问题的变分近似

在控制问题中，我们常常需要求解后验序列。例如，给定观测值 $v_{1:T}$，我们希望找到最可能的隐藏状态序列 $h_{1:T}$，即 $\arg \max_{h_{1:T}} p(h_{1:T}|v_{1:T})$。然而，由于观测模型的非线性，精确计算后验边缘分布 $p(h_{t}|v_{1:T})$ 通常是不可行的。

为了解决这个问题，我们可以使用完全因子化的变分分布 $q(h_{1:T})$ 来近似 $p(h_{1:T}|v_{1:T})$：
[q(h_{1:T}) = \prod_{t=1}^{T} \prod_{i=1}^{n} q(h_{i,t})]

根据平均场方程，对于 $1 < t < T$，$q(h_{i,t})$ 的更新公式为：
[-2 \log q(h_{i,t}) = \frac{1}{\nu^2} (h_{i,t} - \bar{h} {i,t-1})^2 + \frac{1}{\nu^2} (h {i,t} - \bar{h} {i,t+1})^2 + \frac{1}{\sigma^2} (\cos h {i,t} - \alpha_{i,t})^2 + \frac{1}{\sigma^2} (\sin h_{i,t} - \beta_{i,t})^2 + \text{const.}