《统计学习方法》（第九章）—— EM算法及推广

最新推荐文章于 2022-04-26 17:06:07 发布

原创最新推荐文章于 2022-04-26 17:06:07 发布 · 425 阅读

1 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

EM算法主要用于处理含有隐变量的概率模型的参数估计问题。本文详细介绍了EM算法的引入、导出过程、在无监督学习和高斯混合模型中的应用，以及F函数的极大-极大算法和GEM算法的推广。通过迭代的E步和M步，EM算法能够逐步提高模型的似然性，直至收敛。

EM算法的引入

概率模型有时既含有观测变量，又含有隐变量或潜在变量。所以不能直接用极大似然估计去估计参数。EM算法就是对含有隐变量模型的参数的极大似然估计算法。

EM算法

一般用 $Y$ 表示观测随机变量的数据， $Z$ 表示隐随机变量的数据， $Y$ 和 $Z$ 连起来称为完全数据， $Y$ 称为不完全数据。假设给定观测数据 $Y$ ，其概率分布 $P(Y∣θ)P(Y|\theta)$ ，其中 $θ\theta$ 为参数。那么不完全数据 $Y$ 的似然函数是 $P(Y∣θ)P(Y|\theta)$ ,其对数似然函数是 $L(θ)=log⁡P(Y∣θ)L(\theta)=\log P(Y|\theta)$ ,假设 $Y$ 和 $Z$ 的联合改论分布是 $P(Y,Z∣θ)P(Y,Z|\theta)$ ，那么完全数据的对数似然函数是 $L(θ)=P(Y,Z∣θ)L(\theta)=P(Y,Z|\theta)$
$E M$ 算法基本思路是先求期望 $M$ 再进一步最大化，似然函数
算法：
输入：观测变量 $Y$ ，隐变量数据 $Z$ ，联合分布 $P(Y,Z∣θ)P(Y,Z|\theta)$ ,条件分布 $P(Z∣Y,θ)P(Z|Y,\theta)$
输出：模型参数 $θ\theta$
$(1)$ 选择参数的初始值 $θ(0),\theta^{(0)},$ 开始迭代
$(2)$ $E$ 步：记 $θ(i)\theta^{(i)}$ ，为第 $i$ 次迭代的参数估计值，在第 $i + 1$ 次迭代的 $E$ 计算
$Q(θ,θ(i))=Ez[log⁡P(Y,Z∣θ)∣Y,θ(i)]Q(\theta,\theta^{(i)})=E_z[\log P(Y,Z|\theta)|Y,\theta^{(i)}]$
$=∑Zlog⁡P(Y,Z∣θ)P(Z∣Y,θ(i))=\sum\limits_{Z}\log P(Y,Z|\theta)P(Z|Y,\theta^{(i)})$
$(3)$ $M$ 步:求使 $Q(θ,θ(i))Q(\theta,\theta^{(i)})$ 极大化的 $θ\theta$ ，确定第 $i + 1$ 次迭代的参数估计值 $θ(i+1)\theta^{(i+1)}$
$max⁡θQ(θ,θ(i))\theta^{(i+1)}=\argmax\limits_{\theta}Q(\theta,\theta^{(i)})$
$(4)$ 重复 $(2), (3)$ 直到收敛

注意，定义 $Q(θ,θ(i))=EZ[log⁡P(Y,Z∣θ)∣Y,θ(i)]Q(\theta,\theta^{(i)})=E_Z[\log P(Y,Z|\theta)|Y,\theta^{(i)}]$
当 $∣∣Q(θ(i+1),θ(i))−Q(θ(i),θ(i))∣∣<ϵ2||\theta^{i+1}-\theta^{i}|| <\epsilon_1 \ \ \ \ or \ \ \ \ ||Q(\theta^{(i+1)},\theta^{(i)})-Q(\theta^{(i)},\theta^{(i)})||<\epsilon_2$
算法停止

EM算法的导出

对数似然函数为
$L(θ)=log⁡P(Y∣θ)=log⁡∑ZP(Y,Z∣θ)L(\theta)=\log P(Y|\theta)=\log \sum\limits_Z P(Y,Z|\theta)$
$=log⁡(∑P(Y∣Z,θ)P(Z∣θ))=\log(\sum\limits_P(Y|Z,\theta)P(Z|\theta))$
我们希望新值 $L(θ)>L(θ(i))L(\theta)>L(\theta^{(i)})$ 于是
$L(θ)−L(θ(i))=log⁡(∑ZP(Y∣Z,θ)P(Z∣θ))−log⁡P(Y∣θ(i))L(\theta)-L(\theta^{(i)})=\log (\sum\limits_ZP(Y|Z,\theta)P(Z|\theta))-\log P(Y|\theta^{(i)})$
利用 $J e n s e n$ 不等式得
$L(θ)−L(θ(i))=log⁡(∑ZP(Z∣Y,θi)P(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θi))−log⁡P(Y∣θ(i))L(\theta)-L(\theta^{(i)})=\log(\sum\limits_ZP(Z|Y,\theta^{i})\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{i})})-\log P(Y|\theta^{(i)})$
$≥∑ZP(Z∣Y,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θi)−log⁡P(Y∣θ(i))\ge \sum\limits_ZP(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{i})}-\log P(Y|\theta^{(i)})$
$=∑ZP(Z∣Y,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i))P(Y∣θ(i))=\sum\limits_ZP(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}$
令
$B(θ,θ(i))=L(θ(i))+∑ZP(Z∣Y,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i))P(Y∣θ(i))B(\theta,\theta^{(i)})=L(\theta^{(i)})+\sum\limits_ZP(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}$
则
$L(θ)≥B(θ,θ(i))L(\theta)\ge B(\theta,\theta^{(i)})$
又
$L(θ(i))=B(θ(i),θ(i))L(\theta^{(i)})= B(\theta^{(i)},\theta^{(i)})$
因此我们可以使 $B(θ,θ(i))B(\theta,\theta^{(i)})$ 增大
$max⁡θB(θ,θ(i))\theta^{(i+1)}=\argmax\limits_{\theta}B(\theta,\theta^{(i)})$
$max⁡θ(L(θ(i))+∑ZP(Z∣Y,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i))P(Y∣θ(i)))\theta^{(i+1)}=\argmax\limits_{\theta}(L(\theta^{(i)})+\sum\limits_ZP(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})})$
$max⁡θ(∑ZP(Z∣Y,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i))P(Y∣θ(i)))=\argmax\limits_{\theta}(\sum\limits_ZP(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})})$
$max⁡θ(∑ZP(Z∣Y,θ(i))log⁡P(Y,Z∣θ))=\argmax\limits_{\theta}(\sum\limits_ZP(Z|Y,\theta^{(i)})\log P(Y,Z|\theta))$
$max⁡θQ(θ,θ(i))=\argmax\limits_{\theta}Q(\theta,\theta^{(i)})$
即 $E M$ 算法是对极大似然得逼近

EM算法在无监督学习中的应用

对于训练数据 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ,我们可以把 $x_i$ 看成观测变量 $y_i$ 看成隐变量，这样就可以利用算法来估计参数

EM算法的收敛性

设 $P(Y∣θ)P(Y|\theta)$ 为观测数据的似然函数， $θi(i=1,2,...)\theta^{i}(i=1,2,...)$ 为 $E M$ 算法得到的参数估计, $P(Y∣θ(i))(i=1,2,...)P(Y|\theta^{(i)})(i=1,2,...)$ 为对应似然函数序列,则 $P(Y∣θ(i))P(Y|\theta^{(i)})$ 是单调递增的，即
$P(Y∣θi+1)≥P(Y∣θi)P(Y|\theta^{i+1})\ge P(Y|\theta^{i})$
证明
$P(Y∣θ)≥P(Y,Z∣θ)P(Z∣Y,θ)P(Y|\theta)\ge \frac{P(Y,Z|\theta)}{P(Z|Y,\theta)}$
$log⁡P(Y∣θ)=log⁡P(Y,Z∣θ)−log⁡P(Z∣Y,θ)\log P(Y|\theta)=\log P(Y,Z|\theta)-\log P(Z|Y,\theta)$
$Q(θ,θ(i))=EZ[log⁡P(Y,Z∣θ)∣Y,θ(i)]Q(\theta,\theta^{(i)})=E_Z[\log P(Y,Z|\theta)|Y,\theta^{(i)}]$
$H(θ,θ(i))=∑Zlog⁡P(Z∣Y,θ)P(Z∣Y,θ(i))H(\theta,\theta^{(i)})=\sum\limits_Z\log P(Z|Y,\theta)P(Z|Y,\theta^{(i)})$
于是对数似然函数可写成
$log⁡P(Y∣θ)=Q(θ,θ(i))−H(θ,θ(i))\log P(Y|\theta)=Q(\theta,\theta^{(i)})-H(\theta,\theta^{(i)})$
取
$log⁡P(Y∣θ(i+1))−log⁡P(Y∣θ(i))\log P(Y|\theta^{(i+1)})-\log P(Y|\theta^{(i)})$
$=[Q(θ(i+1),θ(i))−Q(θ(i),θ(i))]−[H(θ(i+1),θ(i))−H(θ(i),θ(i))]=[Q(\theta^{(i+1)},\theta^{(i)})-Q(\theta^{(i)},\theta^{(i)})]-[H(\theta^{(i+1)},\theta^{(i)})-H(\theta^{(i)},\theta^{(i)})]$
由极大定义
$[Q(θ(i+1),θ(i))−Q(θ(i),θ(i))]≥0[Q(\theta^{(i+1)},\theta^{(i)})-Q(\theta^{(i)},\theta^{(i)})]\ge 0$
$[H(θ(i+1),θ(i))−H(θ(i),θ(i))]=∑Z(log⁡P(Z∣Y,θ(i+1))P(Z∣Y,θ(i)))P(Z∣Y,θ(i))[H(\theta^{(i+1)},\theta^{(i)})-H(\theta^{(i)},\theta^{(i)})]=\sum\limits_Z(\log \frac{P(Z|Y,\theta^{(i+1)})}{P(Z|Y,\theta^{(i)})})P(Z|Y,\theta^{(i)})$
$≤log⁡(∑Z)P(Z∣Y,θ(i+1))P(Z∣Y,θ(i))P(Z∣Y,θ(i))=0\le \log(\sum\limits_Z) \frac{P(Z|Y,\theta^{(i+1)})}{P(Z|Y,\theta^{(i)})}P(Z|Y,\theta^{(i)})=0$
最终得证

设 $L(θ)=log⁡P(Y∣θ)L(\theta)=\log P(Y|\theta)$ 为观测数据得对数似然函数， $θ(i),i=1,2,...\theta^{(i)},i=1,2,...$ 为EM算法得到的参数序列， $L(θ(i))L(\theta^{(i)})$ 为对应的对数似然函数序列，
则
(1)如果 $P (Y ∣ X)$ 有上界，则 $L(θ(i))L(\theta^{(i)})$ 收敛到某一值 $L^*$
(2)在函数 $Q$ 与 $L$ 满足一定条件下，EM算法得到收敛的 $θ∗\theta^*$ 是稳定点

EM算法在高斯混合模型学习中的应用

高斯混合模型

定义高斯混合模型是指具有如下形式的概率分布模型
$P(y∣θ)=∑k=1Kakϕ(y∣θk)P(y|\theta)=\sum\limits_{k=1}^Ka_k\phi(y|\theta_k)$
其中 $ak≥0a_k\ge0$ 是系数， $∑k=1Kak=1,ϕ(y∣θk)\sum\limits_{k=1}^Ka_k=1,\phi(y|\theta_k)$ 是高斯分布密度, $θk(μk,σk2)\theta_k(\mu_k,\sigma_k^2)$
$ϕ(y∣θk)=12πσkexp⁡(−(y−μk)22σk2)\phi(y|\theta_k)=\frac{1}{\sqrt{2\pi}\sigma_k}\exp(-\frac{(y-\mu_k)^2}{2\sigma_k^2})$
称为第k个模型

高斯混合模型参数估计的EM算法

推导算法

明确隐变量，写出完全数据的对数似然函数
$γjk={1第j个观测来自第k个分量模型0其他\gamma_{jk}=\begin{cases} 1 & 第j个观测来自第k个分量模型\\ 0 & 其他\\ \end{cases}$
$j = 1, 2, . . ., N; k = 1, 2, . . ., K$
于是似然函数
$P(y,γ∣θ)=∏k=1K∏j=1N[akϕ(yi∣θk)]γjkP(y,\gamma|\theta)=\prod\limits_{k=1}^K\prod\limits_{j=1}^N[a_k\phi(y_i|\theta_k)]^{\gamma_{jk}}$
$=∏k=1Kank∏j=1N[12πσkexp⁡(−(yj−μk)22σk2)]=\prod\limits_{k=1}^Ka^{n_k}\prod\limits_{j=1}^N[\frac{1}{\sqrt{2\pi}\sigma_k}\exp(-\frac{(y_j-\mu_k)^2}{2\sigma_k^2})]$
$nk=∑j=1Nγjk,∑k=1Knk=Nn_k=\sum\limits_{j=1}^N\gamma_{jk},\sum\limits_{k=1}^Kn_k=N$
$log⁡P(y,γ∣θ)=∑k=1K{nklog⁡ak+∑j=1Nγjk[log⁡(12π)−log⁡σk−12σk2(yj−μk)2]}\log P(y,\gamma|\theta)=\sum\limits_{k=1}^K\{n_k\log a_k +\sum\limits_{j=1}^N\gamma_{jk}[\log (\frac{1}{\sqrt{2\pi}})-\log \sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2] \}$
EM算法的E，计算Q
$Q(θ,θ(i))=E[log⁡P(y,γ∣θ)∣y,θ(i)]Q(\theta,\theta^{(i)})=E[\log P(y,\gamma|\theta)|y,\theta^{(i)}]$
$=E{∑k=1K{nklog⁡ak+∑j=1Nγjk[log⁡(12π)−log⁡σk−12σk2(yj−μk)2]}}=E\{\sum\limits_{k=1}^K\{n_k\log a_k +\sum\limits_{j=1}^N\gamma_{jk}[\log (\frac{1}{\sqrt{2\pi}})-\log \sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2] \}\}$
$∑k=1K{∑j=1N(γjk)log⁡ak+∑j=1NE(γjk)[log⁡(12π)−log⁡σk−12σk2(yj−μk)2]}\sum\limits_{k=1}^K\{\sum\limits_{j=1}^N(\gamma_{jk})\log a_k +\sum\limits_{j=1}^NE(\gamma_{jk})[\log (\frac{1}{\sqrt{2\pi}})-\log \sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2] \}$
$E(γjk∣y,θ)=P(γjk=1∣y,θ)E(\gamma_{jk}|y,\theta)=P(\gamma_{jk}=1|y,\theta)$
$=P(γjk=1∣y,θ)∑k=1KP(γjk=1∣y,θ)=\frac{P(\gamma_{jk}=1|y,\theta)}{\sum\limits_{k=1}^KP(\gamma_{jk}=1|y,\theta)}$
$=P(yj∣γjk=1,θ)P(γjk=1∣θ)∑k=1KP(yj∣γjk=1,θ)P(γjk=1∣θ)=\frac{P(y_j|\gamma_{jk}=1,\theta)P(\gamma_{jk}=1|\theta)}{\sum\limits_{k=1}^KP(y_j|\gamma_{jk}=1,\theta)P(\gamma_{jk}=1|\theta)}$
$akϕ(yi∣θk)∑k=1Kakϕ(yi∣θk)\frac{a_k\phi(y_i|\theta_k)}{\sum\limits_{k=1}^Ka_k\phi(y_i|\theta_k)}$
记 $γjk^=E(γjk∣y,θ)\hat{\gamma_{jk}}=E(\gamma_{jk}|y,\theta)$
$Q(θ,θ(i))=∑k=1K{nklog⁡ak+∑j=1Nγjk^[log⁡(12π)−log⁡σk−12σk2(yj−μk)2]}Q(\theta,\theta^{(i)})=\sum\limits_{k=1}^K\{n_k\log a_k +\sum\limits_{j=1}^N\hat{\gamma_{jk}}[\log (\frac{1}{\sqrt{2\pi}})-\log \sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2] \}$
EM算法的M，求解极大 $max⁡θQ(θ,θ(i))\theta^{(i+1)}=\argmax\limits_{\theta}Q(\theta,\theta^{(i)})$
对参数求导等于0得
$μ^k=∑j=1Nγ^jkyj∑j=1Nγ^jk, k=1,2,...,K\hat\mu_k=\frac{\sum\limits_{j=1}^N\hat\gamma_{jk}y_j}{\sum\limits_{j=1}^N\hat\gamma_{jk}},\ \ \ \ k=1,2,...,K$
$σ^k2=∑j=1Nγ^jk(yj−μk)∑j=1Nγ^jk, k=1,2,...,K\hat\sigma_k^2=\frac{\sum\limits_{j=1}^N\hat\gamma_{jk}(y_j-\mu_k)}{\sum\limits_{j=1}^N\hat\gamma_{jk}},\ \ \ \ k=1,2,...,K$
$a^knkN=∑j=1Nγ^jkN, k=1,2,...,K\hat a_k\frac{n_k}{N}=\frac{\sum\limits_{j=1}^N\hat\gamma_{jk}}{N},\ \ \ \ k=1,2,...,K$

算法
输入：观测数据 $y_1,y_2,...,y_N$ ,高斯混合模型
输出：高斯混合模型参数
$(1)$ 取参数得初始值开始迭代
$(2)$ E步：依据当前模型参数，计算分模型得响应度
$γ^jk=akϕ(yi∣θk)∑k=1Kakϕ(yi∣θk)\hat\gamma_{jk}=\frac{a_k\phi(y_i|\theta_k)}{\sum\limits_{k=1}^Ka_k\phi(y_i|\theta_k)}$
$(3)$ M步：
$μ^k=∑j=1Nγ^jkyj∑j=1Nγ^jk, k=1,2,...,K\hat\mu_k=\frac{\sum\limits_{j=1}^N\hat\gamma_{jk}y_j}{\sum\limits_{j=1}^N\hat\gamma_{jk}},\ \ \ \ k=1,2,...,K$
$σ^k2=∑j=1Nγ^jk(yj−μk)∑j=1Nγ^jk, k=1,2,...,K\hat\sigma_k^2=\frac{\sum\limits_{j=1}^N\hat\gamma_{jk}(y_j-\mu_k)}{\sum\limits_{j=1}^N\hat\gamma_{jk}},\ \ \ \ k=1,2,...,K$
$a^knkN=∑j=1Nγ^jkN, k=1,2,...,K\hat a_k\frac{n_k}{N}=\frac{\sum\limits_{j=1}^N\hat\gamma_{jk}}{N},\ \ \ \ k=1,2,...,K$
$(4)$ 重复第 $(2)$ 和第 $(3)$ 步直到收敛

EM算法的推广

F函数的极大-极大算法

定义假设隐变量数据 $Z$ 的概率分布为 $P^(Z)\hat P(Z)$ ，定义分布 $P^\hat P$ 与参数 $θ\theta$ 的函数 $F(P^,θ)F(\hat P,\theta)$ 如下：
$F(P^,θ)=EP^[log⁡P(Y,Z∣θ)]+H(P^)F(\hat P,\theta)=E_{\hat P}[\log P(Y,Z|\theta)]+H(\hat P)$
称为 $F$ 函数，其中 $H(P^)=−EP^log⁡P^(Z)H(\hat P)=-E_{\hat P\log \hat P(Z)}$ 是分布 $P^(Z)\hat P(Z)$ 的熵
对于固定的 $θ\theta$ 存在唯一的分布 $P^θ\hat P_\theta$ 极大化 $F(P^,θ)F(\hat P,\theta)$ ，这时 $P^θ由下式给出\hat P_\theta由下式给出$
$P^θ(Z)=P(Z∣Y,θ)\hat P_\theta(Z)=P(Z|Y,\theta)$ 并且 $P^θ\hat P_\theta$ 随 $θ\theta$ 连续变化
证明
拉格朗日函数为
$L=EP^log⁡P(Y,Z∣θ)−EP^log⁡P^(Z)+λ(1−∑ZP^(Z))L=E_{\hat P}\log P(Y,Z|\theta)-E_{\hat P}\log \hat P(Z)+\lambda(1-\sum\limits_Z \hat P(Z))$
$∂L∂P^(Z)=log⁡P(Y,Z∣θ)−log⁡P^(Z)−1−λ=0\frac{\partial L}{\partial \hat P(Z)}=\log P(Y,Z|\theta)-\log \hat P(Z)-1-\lambda=0$
得
$λ=log⁡P(Y,Z∣θ)−log⁡P^θ(Z)−1\lambda=\log P(Y,Z|\theta)-\log \hat P_\theta(Z)-1$
最终
$P^θ(Z)=P(Z∣Y,θ)\hat P_\theta(Z)=P(Z|Y,\theta)$
设 $L(θ)=log⁡P(Y∣θ)L(\theta)=\log P(Y|\theta)$ 为观测数据得似然函数， $θ(i)\theta^{(i)}$ 为 $E M$ 算法得到得参数估计，如果 $F(P^,θ)F(\hat P,\theta)$ 在 $θ∗\theta^*$ 由局部极大\最大，则在 $L$ 上也是局部极大\最大

EM算法得一次迭代可由 $F$ 函数得极大-极大算法实现
$(1)$ 对于固定得 $θ(i)\theta^{(i)}$ ，求 $P^(i+1)\hat P^{(i+1)}$ 使 $F(P^,θ(i))F(\hat P,\theta^{(i)})$ 极大
$(2)$ 对于固定 $P^(i+1)\hat P^{(i+1)}$ 求 $θ(i+1)\theta^{(i+1)}$ 使 $F(P^(i+1),θ)F(\hat P^{(i+1),\theta})$ 极大化

GEM算法

算法1
输入：观测数据， $F$ 函数
输出：模型参数
$(1)$ 初始化参数 $θ(0)\theta^{(0)}$ , 开始迭代
$(2)$ 固定 $θ\theta$ 最大化 $P$
$(3)$ 得到 $P$ 后优化 $θ\theta$
$(4)$ 重复 $(2), (3)$
算法2
输入：观测数据， $Q$ 函数
输出：模型参数
$(1)$ 初始化参数 $θ(0)\theta^{(0)}$ , 开始迭代
$(2)$
$Q(θ,θ(i))=EZ[log⁡P(Y,Z∣θ)∣Y,θ(i)]Q(\theta,\theta^{(i)})=E_Z[\log P(Y,Z|\theta)|Y,\theta^{(i)}]$
$=∑ZP(Z∣Y,θ(i))log⁡P(Y,Z∣θ)=\sum\limits_ZP(Z|Y,\theta^{(i)})\log P(Y,Z|\theta)$
$(3)$ 求 $θ(i+1)\theta^{(i+1)}$
$Q(θ(i+1),θ(i))>Q(θ(i),θ(i))Q(\theta^{(i+1)},\theta^{(i)})>Q(\theta^{(i)},\theta^{(i)})$
$(4)$ 重复 $(2), (3)$
算法3
输入：观测数据， $Q$ 函数
输出：模型参数
$(1)$ 初始化参数 $θ(0)\theta^{(0)}$ , 开始迭代
$(2)$
$Q(θ,θ(i))=EZ[log⁡P(Y,Z∣θ)∣Y,θ(i)]Q(\theta,\theta^{(i)})=E_Z[\log P(Y,Z|\theta)|Y,\theta^{(i)}]$
$=∑ZP(Z∣Y,θ(i))log⁡P(Y,Z∣θ)=\sum\limits_ZP(Z|Y,\theta^{(i)})\log P(Y,Z|\theta)$
$(3)$ 求 $θ(i+1),d\theta^{(i+1)},d$ 次，求依次优化 $θi\theta_i$ ，固定其他不变
$Q(θ(i+1),θ(i))>Q(θ(i),θ(i))Q(\theta^{(i+1)},\theta^{(i)})>Q(\theta^{(i)},\theta^{(i)})$
$(4)$ 重复 $(2), (3)$