一,变分推断
变分推断通过使用已知简单分布来逼近需推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优、但具有确定解的近似后验分布。
在现实生活中,E步对 p ( z ∣ x , Θ t ) p(z|x,\Theta^t) p(z∣x,Θt)的推断很可能因为 z ⃗ \vec z z模型的复杂而难以进行,此时可以借助变分推断。通常假设 z ⃗ \vec z z服从分布:
q ( z ⃗ ) = ∏ i = 1 M q i ( z ⃗ i ) q(\vec z)=\prod_{i=1}^{M}q_i(\vec z_i) q(z)=i=1∏Mqi(zi)
即假设复杂的多变量 z ⃗ \vec z z可以拆解为一系列相互独立的多变量 z i ⃗ \vec {z_i} zi,更重要的是可以令 q i q_i qi分布相对简单或有很好的结构,例如可以假设 q i q_i qi为指数族的分布。其中 q i q_i qi是 q i ( z ⃗ i ) q_i(\vec z_i) qi(zi)的简写。这被称为“均值场法”,即我们可以选择 q i q_i qi的形式来选择任何图模型的结构,通过选择变量之间相互作用的多少来灵活地决定近似程度的大小。
在这个假设条件下,我们就可以得到变量子集 z ⃗ j \vec z_j z