EM算法解析与应用-优快云博客

本文链接：https://blog.youkuaiyun.com/joejoeqian/article/details/105779221

$P(x∣θ)P(x|\theta)$ 和 $P(x;θ)P(x;\theta)$ 的比较
- $P(x∣θ)P(x|\theta)$ 表示条件概率
- 当 $P(x∣θ)P(x|\theta)$ 不代表条件概率时与 $P(x;θ)P(x;\theta)$ 等价，此时 $θ\theta$ 不是一个随机变量，而是一个代估参数（ $θ\theta$ 是固定的，只是当前未知）
- 两者都表示在给定参数 $θ\theta$ 时 $P (x)$ 的概率。

输入：观测变量数据Y，隐变量数据Z，联合分布 $P(Y,Z∣θ)P(Y,Z|\theta)$ ，条件分布 $P(Z∣Y,θ)P(Z|Y,\theta)$ ；
输出：模型参数 $θ\theta$

(1)选择参数的初值 $θ0\theta^0$ ，开始迭代
(2) E步：记 $θi\theta^i$ 为第i次迭代参数 $θ\theta$ 的估计值，在第i+1次迭代的E步，计算
$\begin{aligned} Q(\theta,\theta^i)&=E_{Z}[logP(Y,Z|\theta)|Y,\theta^i]\\ &=\sum_{Z}logP(Y,Z|\theta)P(Z|Y,\theta^i) \end{aligned}$
这里， $P(Z∣Y,θi)P(Z|Y,\theta^i)$ 是在给定观测数据Y和当前的参数估计 $θi\theta^i$ 下隐变量数据Z的条件概率分布；
(3) M步：求使 $Q(θ,θi)Q(\theta,\theta^i)$ 极大化的 $θ\theta$ ，确定第i+1次迭代的参数的估计值 $θi+1\theta^{i+1}$ ，
$\theta^{i+1}=arg \max \limits_{\theta}Q(\theta,\theta^{i})$
$Q(θ,θi)Q(\theta,\theta^{i})$ 是EM算法的核心，称为Q函数(Q function)，这个是需要自己构造的。
(4) 重复第(2)步和第(3)步，直到收敛，收敛条件：
$\theta^{i+1}-\theta^{i} || < \varepsilon_1$
或者：
$||Q(\theta^{i+1},\theta^{i})-Q(\theta^{i},\theta^{i})|| <\varepsilon_2$
收敛迭代就结束了。