EM算法详解

最新推荐文章于 2025-08-14 15:17:58 发布

做技术不可耻

最新推荐文章于 2025-08-14 15:17:58 发布

阅读量379

点赞数

CC 4.0 BY-SA版权

文章标签：机器学习极大似然估计

本文链接：https://blog.youkuaiyun.com/qq_40019838/article/details/101864452

EM算法

EM算法是含有隐变量的概率模型参数的极大似然估计法。

用 $Y$ 表示观测变量的数据， $Z$ 表示隐变量的数据， $θ\theta$ 表示要估计的参数， $Y$ 和 $Z$ 连在一起称为完全数据，观测数据 $Y$ 称为不完全数据，假设 $Y$ 的概率分布是 $P(Y∣θ)P(Y\mid\theta)$ ，那么不完全数据 $Y$ 的对数似然函数是 $log⁡P(Y∣θ)\log P(Y\mid\theta)$ ，假设 $Y$ 和 $Z$ 的联合概率分布是 $P(Y,Z∣θ)P(Y,Z\mid\theta)$ ，那么完全数据的对数似然函数是 $log⁡P(Y,Z∣θ)\log P(Y,Z\mid\theta)$ 。

对含有隐变量的概率模型，目标是极大化观测数据 $Y$ 对于模型参数 $θ\theta$ 的对数似然函数，即极大化
$L(\theta)=\log P(Y\mid\theta)=\log(\sum_zP(Y\mid Z,\theta)P(Z\mid\theta))$
这个式子的困难在于存在未观测数据并且包含和的对数，EM算法通过迭代逐步近似极大化 $L(θ)L(\theta)$ ，假设在第 $i$ 次迭代后 $θ\theta$ 的估计值是 $θ(i)\theta^{(i)}$ ，我们希望新的估计值 $θ\theta$ 能使 $L(θ)L(\theta)$ 增加，即 $L(θ)>L(θ(i))L(\theta)>L(\theta^{(i)})$ ，并逐步达到极大值，为此考虑两者的差
$L(\theta)-L(\theta_{(i)})=\log(\sum_zP(Y\mid Z,\theta)P(Z\mid\theta))-\log P(Y\mid\theta^{(i)})$
利用 $J e n s e n$ 不等式
$\begin{aligned} L(\theta)-L(\theta_{(i)}) &=\log(\sum_zP(Z\mid Y,\theta^{(i)})\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})})-\log P(Y\mid\theta^{(i)})\\ &\geq\sum_zP(Z\mid Y,\theta^{(i)})\log(\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})})-\log P(Y\mid\theta^{(i)})\\ &=\sum_zP(Z\mid Y,\theta^{(i)})\log(\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})})-\sum_zP(Z\mid Y,\theta^{(i)})\log P(Y\mid\theta^{(i)})\\ &=\sum_zP(Z\mid Y,\theta^{(i)})\log(\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})P(Y\mid\theta^{(i)})}) \end{aligned}$
令
$B(\theta,\theta^{(i)})=L(\theta^{(i)})+\sum_zP(Z\mid Y,\theta^{(i)})\log(\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})P(Y\mid\theta^{(i)})})$

即
$L(\theta)\geq B(\theta,\theta^{(i)})$
并且 $L(θ(i))=B(θ(i),θ(i))L(\theta^{(i)})=B(\theta^{(i)},\theta^{(i)})$ ，因此任何能使 $B(θ,θ(i))B(\theta,\theta^{(i)})$ 增大的 $θ\theta$ 也一定能使 $L(θ)L(\theta)$ 增大，为使 $L(θ)L(\theta)$ 增长尽可能的大，应选择 $θ(i+1)\theta^{(i+1)}$ 使 $B(θ,θ(i))B(\theta,\theta^{(i)})$ 达到极大，即
$\begin{aligned} \theta^{(i+1)} &=\arg\max\limits_{\theta}B(\theta,\theta^{(i)})\\ &=\arg\max\limits_{\theta}L(\theta^{(i)})+\sum_zP(Z\mid Y,\theta^{(i)})\log(\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})P(Y\mid\theta^{(i)})})\\ &=\arg\max\limits_{\theta}\sum_zP(Z\mid Y,\theta^{(i)})\log(P(Y\mid Z,\theta)P(Z\mid\theta)\\ &=\arg\max\limits_{\theta}\sum_zP(Z\mid Y,\theta^{(i)})\log P(Y,Z\mid\theta)\\ &=\arg\max\limits_{\theta}E_z[\log P(Y,Z\mid\theta)\mid Y,\theta^{(i)}] \end{aligned}$
令
$Q(\theta,\theta^{(i)})=E_z[\log P(Y,Z\mid\theta)\mid Y,\theta^{(i)}]$
即完全数据的对数似然 $log(Y,Z∣θ)log(Y,Z\mid\theta)$ 关于在给定观测数据和当前参数 $θ(i)\theta^{(i)}$ 下对未观测数据 $Z$ 的期望，因此
$\theta^{(i+1)}=\arg\max\limits_{\theta}Q(\theta,\theta^{(i)})$
EM算法：

输入：观测数据变量 $Y$ ，隐变量数据 $Z$ ，联合分布 $P(Y,Z∣θ)P(Y,Z\mid\theta)$ ，条件分布 $P(Z∣Y,θ)P(Z\mid Y,\theta)$

输出：模型参数 $θ\theta$

(1) 选择参数的初始值 $θ(0)\theta^{(0)}$ ，开始迭代

(2) E步：计算 $Q(θ,θ(i))=∑zP(Z∣Y,θ(i))log⁡P(Y,Z∣θ)Q(\theta,\theta^{(i)})=\sum_zP(Z\mid Y,\theta^{(i)})\log P(Y,Z\mid\theta)$

(3) M步：计算 $θ(i+1)=arg⁡max⁡θQ(θ,θ(i))\theta^{(i+1)}=\arg\max\limits_{\theta}Q(\theta,\theta^{(i)})$

(4) 重复执行第(2)步和第(3)步，直至收敛

高斯混合模型

高斯混合分布是具有如下形式的概率分布
$P(x\mid\theta)=\sum_{k=1}^K\alpha_k\phi(x\mid\theta_k)$
其中 $αk\alpha_k$ 是系数， $∑k=1Kαk=1\sum_{k=1}^K\alpha_k=1$ ， $αk≥0\alpha_k\geq0$ ， $ϕ(y∣θk)\phi(y\mid\theta_k)$ 是高斯概率密度函数， $θk=(μk,σk2)\theta_k=(\mu_k,\sigma_k^2)$
$\phi(x\mid\theta_k)=\frac{1}{\sqrt{2\pi}\sigma_k}\exp(-\frac{(x-\mu_k)^2}{2\sigma_k^2})$
假设样本的生成过程由高斯混合分布给出：首先根据 $α1,α2,…,αk\alpha_1,\alpha_2,\dots,\alpha_k$ 选择一个高斯混合成分，然后根据被选择的高斯混合成分生成观测数据。这是观测数据是已知的，观测数据来自哪个高斯分布是未知的，以隐变量 $γjk\gamma_{jk}$ 表示，其定义如下：
$\begin{aligned} \gamma_{jk}=&\begin{cases} 1,\quad第j个观测来自第k个分模型\\ 0,\quad其他 \end{cases}\\\\ &j=1,2,\dots,N;\;k=1,2,\dots,k \end{aligned}$
那么完全数据是
$(y_j,\gamma_{j1},\gamma_{j2},\dots,\gamma_{jk}),\quad j=1,2,\dots,N$
于是完全数据的似然函数
$\begin{aligned} P(\gamma,y\mid\theta) &=\prod_{j=1}^{N}P(y_j,\gamma_{j1},\gamma_{j2},\dots,\gamma_{jk}\mid\theta)\\ &=\prod_{j=1}^{N}\prod_{k=1}^{K}[\alpha_k\phi(x_j\mid\theta_k)]^{\gamma_{jk}}\\ &=\prod_{k=1}^{K}\alpha_k^{n_k}\prod_{j=1}^{N}[\phi(x_j\mid\theta_k)]^{\gamma_{jk}}\\ &=\prod_{k=1}^{K}\alpha_k^{n_k}\prod_{j=1}^{N}[\frac{1}{\sqrt{2\pi}\sigma_k}\exp(-\frac{(x_j-\mu_k)^2}{2\sigma_k^2})]^{\gamma_{jk}} \end{aligned}$
其中 $nk=∑j=1Nγjkn_k=\sum_{j=1}^{N}\gamma_{jk}$ ， $∑k=1Knk=N\sum_{k=1}^{K}n_k=N$ ，那么完全数据的对数似然是
$\log P(\gamma,y\mid\theta)=\sum_{k=1}^{K}n_k\log\alpha_k+\sum_{k=1}^{K}\sum_{j=1}^{N}[\gamma_{jk}(\log\frac{1}{\sqrt{2\pi}}-\log\sigma_k-\frac{(x_j-\mu_k)^2}{2\sigma_k^2})]$
需要极大化的 $Q$ 函数是
$\begin{aligned} Q(\theta,\theta^{(i)}) &=E_\gamma[\log P(\gamma,y\mid\theta)\mid y,\theta^{(i)}]\\ &=E_\gamma\{\sum_{k=1}^{K}n_k\log\alpha_k+\sum_{k=1}^{K}\sum_{j=1}^{N}[\gamma_{jk}(\log\frac{1}{\sqrt{2\pi}}-\log\sigma_k-\frac{(x_j-\mu_k)^2}{2\sigma_k^2})]\}\\ &=\sum_{k=1}^{K}\{\sum_{j=1}^{N}(E\gamma_{jk})\log\alpha_k+\sum_{j=1}^{N}(E\gamma_{jk})[\log\frac{1}{\sqrt{2\pi}}-\log\sigma_k-\frac{(x_j-\mu_k)^2}{2\sigma_k^2}]\} \end{aligned}$
这里需要计算 $Eγjk=E(γjk∣y,θ)E\gamma_{jk}=E(\gamma_{jk}\mid y,\theta)$
$\begin{aligned} E(\gamma_{jk}\mid y,\theta) &=P(\gamma_{jk}=1\mid y,\theta)\\ &=\frac{P(\gamma_{jk}=1,y_j\mid\theta)}{P(y_j\mid\theta)}\\ &=\frac{P(\gamma_{jk}=1,y_j\mid\theta)}{\sum_{k=1}^{K}P(\gamma_{jk}=1,y_j\mid\theta)}\\ &=\frac{P(y_j\mid\gamma_{jk}=1,\theta)P(\gamma_{jk}=1\mid\theta)}{\sum_{k=1}^{K}P(y_j\mid\gamma_{jk}=1,\theta)P(\gamma_{jk}=1\mid\theta)}\\ &=\frac{\alpha_k\phi(y_j\mid\theta_k)}{\sum_{k=1}^{K}\alpha_k\phi(y_j\mid\theta_k)} \end{aligned}$
$E(γjk∣y,θ)E(\gamma_{jk}\mid y,\theta)$ 表示当前参数下第 $j$ 个观测数据来自第 $k$ 个混合成分的概率，记为 $γ^jk\hat{\gamma}_{jk}$ 。综上所述
$Q(θ,θ(i))=∑k=1K{nklog⁡αk+∑j=1Nγ^jk[log⁡12π−log⁡σk−(xj−μk)22σk2]} Q(\theta,\theta^{(i)})=\sum_{k=1}^{K}\{n_k\log\alpha_k+\sum_{j=1}^{N}\hat{\gamma}_{jk}[\log\frac{1}{\sqrt{2\pi}}-\log\sigma_k-\frac{(x_j-\mu_k)^2}{2\sigma_k^2}]\}$
其中 $nk=∑j=1Nγ^jkn_k=\sum_{j=1}^{N}\hat{\gamma}_{jk}$ ，接下来需对 $Q(θ,θ(i))Q(\theta,\theta^{(i)})$ 求极大，需要求 $Q(θ,θ(i))Q(\theta,\theta^{(i)})$ 对每个参数的偏导。

$Q(θ,θ(i))Q(\theta,\theta^{(i)})$ 对 $μk\mu_k$ 的偏导：
$\frac{\partial Q(\theta, \theta^{(i)})}{\partial \mu_k}=\sum_{j=1}^{N}\frac{\gamma_{jk}(x_j-\mu_k)}{\sigma^2_k}$
所以
$μ^k=∑j=1Nγjkxj∑j=1Nγjk \hat{\mu}_k=\frac{\sum_{j=1}^{N}\gamma_{jk}x_j}{\sum_{j=1}^{N}\gamma_{jk}}$
$Q(θ,θ(i))Q(\theta,\theta^{(i)})$ 对 $σk2\sigma_k^2$ 的偏导：
$∂Q(θ,θ(i))∂σk2=−12∑j=1Nγ^jk(1σk2−(xj−μk)2σk4) \frac{\partial Q(\theta,\theta^{(i)})}{\partial\sigma_k^2}=-\frac{1}{2}\sum_{j=1}^{N}\hat{\gamma}_{jk}(\frac{1}{\sigma^2_k}-\frac{(x_j-\mu_k)^2}{\sigma^4_k})$
所以
$σ^k2=∑j=1Nγ^jk(xj−μk)2∑j=1Nγ^jk \hat{\sigma}_k^2=\frac{\sum_{j=1}^{N}\hat{\gamma}^{jk}(x_j-\mu_k)^2}{\sum_{j=1}^{N}\hat{\gamma}_{jk}}$
$Q(θ,θ(i))Q(\theta,\theta^{(i)})$ 对 $αk\alpha_k$ 的偏导：由于存在约束条件 $∑k=1Kαk=1\sum_{k=1}^{K}\alpha_k=1$ ，所以考虑 $Q(θ,θ(i))Q(\theta,\theta^{(i)})$ 的拉格朗日函数
$L(\theta,\theta^{(i)})=Q(\theta,\theta^{(i)})+\lambda(\sum_{k=1}^K\alpha_k-1)$
求偏导
$∂L(θ,θ(i))∂αk=∑j=1Nγ^jkαk+λ \frac{\partial L(\theta,\theta^{(i)})}{\partial\alpha_k}=\frac{\sum_{j=1}^N\hat{\gamma}_{jk}}{\alpha_k}+\lambda$
令偏导等于零，即
$∑j=1Nγ^jk+λαk=0 \sum_{j=1}^N\hat{\gamma}_{jk}+\lambda\alpha_k=0$
为求解 $λ\lambda$ ，对所有分模型求和得
$∑k=1K∑j=1Nγ^jk+λ∑k=1Kαk=0 \sum_{k=1}^K\sum_{j=1}^N\hat{\gamma}_{jk}+\lambda\sum_{k=1}^K\alpha_k=0$
解得 $λ=−N\lambda=-N$ ，所以
$α^k=∑j=1Nγ^jkN \hat{\alpha}_k=\frac{\sum_{j=1}^{N}\hat{\gamma}_{jk}}{N}$