概率模型中的变分近似与信息最大化技术
在概率模型的参数估计和推理过程中,精确计算后验分布往往具有挑战性,尤其是在高维参数空间或非标准分布的情况下。本文将介绍几种常见的变分近似方法,包括局部近似、KL 变分近似,以及它们在信息最大化和信念传播中的应用。
1. 控制问题的变分近似
在控制问题中,我们常常需要求解后验序列。例如,给定观测值 $v_{1:T}$,我们希望找到最可能的隐藏状态序列 $h_{1:T}$,即 $\arg \max_{h_{1:T}} p(h_{1:T}|v_{1:T})$。然而,由于观测模型的非线性,精确计算后验边缘分布 $p(h_{t}|v_{1:T})$ 通常是不可行的。
为了解决这个问题,我们可以使用完全因子化的变分分布 $q(h_{1:T})$ 来近似 $p(h_{1:T}|v_{1:T})$:
[q(h_{1:T}) = \prod_{t=1}^{T} \prod_{i=1}^{n} q(h_{i,t})]
根据平均场方程,对于 $1 < t < T$,$q(h_{i,t})$ 的更新公式为:
[-2 \log q(h_{i,t}) = \frac{1}{\nu^2} (h_{i,t} - \bar{h} {i,t-1})^2 + \frac{1}{\nu^2} (h {i,t} - \bar{h} {i,t+1})^2 + \frac{1}{\sigma^2} (\cos h {i,t} - \alpha_{i,t})^2 + \frac{1}{\sigma^2} (\sin h_{i,t} - \beta_{i,t})^2 + \text{const.}
超级会员免费看
订阅专栏 解锁全文
337

被折叠的 条评论
为什么被折叠?



