机器学习笔记五——EM算法与高斯混合模型

最新推荐文章于 2024-12-31 16:41:54 发布

原创最新推荐文章于 2024-12-31 16:41:54 发布 · 325 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

26 篇文章

订阅专栏

本文介绍EM算法原理及应用，并详细解析如何使用EM算法进行高斯混合模型的参数估计。

一、EM算法

概率模型有时既含有观测变量，又含有隐变量(latent variable)。如果只含观测变量，那么直接用极大似然估计法估计模型参数即可；但当模型含有隐变量时，就需要采用EM算法，EM算法就是含有隐变量的概率模型参数的极大似然估计法，或极大后验概率估计法。

1.1 EM算法

用 $Y$ 表示观测随机变量的数据， $Z$ 表示隐随机变量的数据， $Y$ 和 $Z$ 连在一起称为完全数据。假设给定观测数据 $Y$ ，其概率分布是 $P(Y∣θ)P(Y|\theta)$ ，其中 $θ\theta$ 是需要估计的模型参数， $Y$ 和 $Z$ 的联合概率分布是 $P(Y,Z∣θ)P(Y,Z|\theta)$ ，那么完全数据的对数似然函数是 $log⁡P(Y,Z∣θ)\log P(Y,Z|\theta)$ ， $P(Z∣Y,θ)P(Z|Y,\theta)$ 是给定观测数据 $Y$ 和参数 $θ\theta$ 下隐变量 $Z$ 的条件概率分布，EM算法通过迭代求解 $L(θ)=log⁡P(Y∣θ)L(\theta)=\log P(Y|\theta)$ 的极大似然估计：

$∙\bullet\quad$ 选择参数的初始值 $θ(0)\theta^{(0)}$
$∙E\bullet\quad E$ 步：记 $θ(i)\theta^{(i)}$ 为第 $i$ 次迭代参数 $θ\theta$ 的估计值，在第 $i + 1$ 次，计算 $Q(θ,θ(i))=EZ[log⁡P(Y,Z∣θ)∣Y,θ(i)]=∑Zlog⁡P(Y,Z∣θ)P(Z∣Y,θ(i))(1)Q(\theta, \theta^{(i)})=E_Z[\log P(Y, Z|\theta)|Y,\theta^{(i)}]=\sum_{Z}\log P(Y,Z|\theta)P(Z|Y,\theta^{(i)})\tag1$
其中， $P(Z∣Y,θ(i))P(Z|Y,\theta^{(i)})$ 是在给定观测数据 $Y$ 和当前的参数估计 $θ(i)\theta^{(i)}$ 下隐变量数据 $Z$ 的条件概率分布， $Q(θ,θ(i))Q(\theta, \theta^{(i)})$ 的第1个变元表示要极大化的参数，第二个变元表示参数的当前估计值，每次迭代实际在求 $Q(θ,θ(i))Q(\theta, \theta^{(i)})$ 及其极大。

$∙M\bullet\quad M$ 步：求使 $Q(θ,θ(i))Q(\theta,\theta^{(i)})$ 极大化的 $θ\theta$ ，确定第 $i + 1$ 步迭代的参数的估计值 $θ(i+1)\theta^{(i+1)}$ $θ(i+1)=arg⁡max⁡θQ(θ,θ(i))(2)\theta^{(i+1)}=\arg \max_\theta Q(\theta,\theta^{(i)})\tag2$

$∙\bullet\quad$ 重复 $E$ 步和 $M$ 步，直至收敛

$Q$ 函数：
完全数据的对数似然函数 $log⁡P(Y,Z∣θ)\log P(Y,Z|\theta)$ 关于在给定观测数据 $Y$ 和当前参数 $θ(i)\theta^{(i)}$ 下对未观测数据 $Z$ 的条件概率分布 $P(Z∣Y,θ(i))P(Z|Y,\theta^{(i)})$ 的期望称为 $Q$ 函数，即 $Q(θ,θ(i))=EZ[log⁡P(Y,Z∣θ)∣Y,θ(i)](3)Q(\theta, \theta^{(i)})=E_Z[\log P(Y, Z|\theta)|Y,\theta^{(i)}]\tag3$

1.2 EM算法的导出

为什么EM算法能近似实现对观测数据的极大似然估计呢？

极大化 $(4)$ 式的主要困难是含有未观测数据并有包含和（或积分）的对数。

EM算法是通过逐步迭代近似极大化 $L(θ)L(\theta)$ 的。假设 $θ(i)\theta^{(i)}$ 为第 $i$ 次迭代参数 $θ\theta$ 的估计值，我们希望新的估计值 $θ\theta$ 能使 $L(θ)L(\theta)$ 增加，即 $L(θ)>L(θ(i))L(\theta)\gt L(\theta^{(i)})$ ，为此，考虑它们的差 $L(θ)−L(θ(i))=log⁡(∑ZP(Z∣θ)P(Y∣Z,θ))−log⁡P(Y∣θ(i))(5)L(\theta) - L(\theta^{(i)})=\log(\sum_ZP(Z|\theta)P(Y|Z,\theta))-\log P(Y|\theta^{(i)})\tag5$
利用Jensen不等式[1]得到其下界 $L(θ)−L(θ(i))=log⁡(∑ZP(Z∣Y,θ(i))P(Z∣θ)P(Y∣Z,θ)P(Z∣Y,θ(i)))−log⁡P(Y∣θ(i))L(\theta) - L(\theta^{(i)})=\log(\sum_Z P(Z|Y,\theta^{(i)})\frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})})-\log P(Y|\theta^{(i)})$ $≥∑ZP(Z∣Y,θ(i))log⁡P(Z∣θ)P(Y∣Z,θ)P(Z∣Y,θ(i))−log⁡P(Y∣θ(i))\ge\sum_Z P(Z|Y,\theta^{(i)})\log \frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})}-\log P(Y|\theta^{(i)})$ $=∑ZP(Z∣Y,θ(i))log⁡P(Z∣θ)P(Y∣Z,θ)P(Z∣Y,θ(i))P(Y∣θ(i))(6)=\sum_Z P(Z|Y,\theta^{(i)})\log \frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}\tag6$

令 $B(θ,θ(i))=L(θ(i))+∑ZP(Z∣Y,θ(i))log⁡P(Z∣θ)P(Y∣Z,θ)P(Z∣Y,θ(i))P(Y∣θ(i))B(\theta,\theta^{(i)})=L(\theta^{(i)})+\sum\limits_Z P(Z|Y,\theta^{(i)})\log \frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}$ ，则 $L(θ)≥B(θ,θ(i))L(\theta)\ge B(\theta,\theta^{(i)})$

即函数 $B(θ,θ(i))B(\theta,\theta^{(i)})$ 是 $L(θ)L(\theta)$ 的一个下界，为了使 $L(θ)L(\theta)$ 尽可能增大，可选择 $θ(i+1)\theta^{(i+1)}$ 使 $B(θ,θ(i))B(\theta,\theta^{(i)})$ 尽可能增大，即 $θ(i+1)=arg⁡max⁡θB(θ,θ(i))(7)\theta^{(i+1)}=\arg \max_\theta B(\theta,\theta^{(i)})\tag7$

所以 $θ(i+1)=arg⁡max⁡θ(L(θ(i))+∑ZP(Z∣Y,θ(i))log⁡P(Z∣θ)P(Y∣Z,θ)P(Z∣Y,θ(i))P(Y∣θ(i)))\theta^{(i+1)}=\arg \max_\theta (L(\theta^{(i)})+\sum\limits_Z P(Z|Y,\theta^{(i)})\log \frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})})$ $=arg⁡max⁡θ(∑ZP(Z∣Y,θ(i))log⁡P(Z∣θ)P(Y∣Z,θ)P(Z∣Y,θ(i))P(Y∣θ(i)))=\arg \max_\theta (\sum\limits_Z P(Z|Y,\theta^{(i)})\log \frac{P(Z|\theta)P(Y|Z,\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})})$ $=arg⁡max⁡θ∑ZP(Z∣Y,θ(i))log⁡(P(Y∣Z,θ)P(Z∣θ))=\arg \max_\theta \sum\limits_Z P(Z|Y,\theta^{(i)})\log (P(Y|Z,\theta)P(Z|\theta))$ $=arg⁡max⁡θ∑ZP(Z∣Y,θ(i))log⁡(P(Y,Z∣θ))=\arg \max_\theta \sum\limits_Z P(Z|Y,\theta^{(i)})\log (P(Y, Z|\theta))$ $=arg⁡max⁡θQ(θ,θ(i))(8)=\arg \max_\theta Q(\theta,\theta^{(i)})\tag8$

EM算法是通过不断求解下界的极大化逼近求解对数似然函数极大化的算法。

1.3 EM算法的收敛

设 $)\theta^{(i)}(i=1,2,\cdots)$ 为EM算法得到参数估计序列， $P(Y∣θ(i))P(Y|\theta^{(i)})$ 为对应的似然函数序列，则 $P(Y∣θ(i))P(Y|\theta^{(i)})$ 是单调递增的，即 $P(Y∣θ(i+1))≥P(Y∣θ(i))(9)P(Y|\theta^{(i+1)})\ge P(Y|\theta^{(i)})\tag9$

EM算法不能保证找到全局最优值，因此初始值的选择会对最后的结果产生影响，常用的办法是选取几个不同的初始值进行迭代，然后对得到的各个估计值加以比较，从中选择最好的。

二、高斯混合模型

2.1 高斯混合模型

高斯混合模型是指具有如下形式的概率分布模型 $P(y∣θ)=∑k=1Kαkϕ(y∣θk)(10)P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)\tag{10}$
其中， $αk\alpha_k$ 是系数， $αk≥0,∑k=1Kαk=1\alpha_k\ge0, \sum\limits_{k=1}^K\alpha_k=1$ ， $ϕ(y∣θk)\phi(y|\theta_k)$ 是高斯分布密度函数， $θk=(μk,σk2)\theta_k=(\mu_k,\sigma^2_k)$ $ϕ(y∣θk)=12πσkexp⁡{−(y−μk)22σk2}(11)\phi(y|\theta_k)=\frac{1}{\sqrt{2\pi}\sigma_k}\exp\{-\frac{(y-\mu_k)^2}{2\sigma_k^2}\}\tag{11}$

2.2 高斯混合模型参数估计的EM算法

假设观测数据 $,yNy_1,\cdots,y_N$ 由高斯混合模型 $P(y∣θ)=∑k=1Kαkϕ(y∣θk)P(y|\theta)=\sum\limits_{k=1}^K\alpha_k\phi(y|\theta_k)$ 生成，其中， $,θK)\theta=(\alpha_1,\cdots,\alpha_K;\theta_1,\cdots,\theta_K)$ ，我们用EM算法来估计参数 $θ\theta$

定义隐变量 $γjk={1第j个观测数据来自第k个分模型0否则(12)\gamma_{jk}=\begin{cases} 1&第j个观测数据来自第k个分模型\\ 0&否则 \end{cases}\tag{12}\\$
其中 $,Kj=1,2\cdots,N;\quad k=1,2\cdots,K$

从而有完全数据 $,γjK)(y_j, \gamma_{j1},\cdots,\gamma_{jK})$ ， $,Kj=1,2\cdots,K$ ，所以可以写出完全数据的似然函数 $,γjK∣θ)=∏k=1K∏j=1N[αkϕ(yj∣θk)]γjk=∏k=1Kαknk∏j=1N[12πσkexp⁡{−(yj−μk)22σk2}]γjk(12)P(y,\gamma|\theta)=\prod_{j=1}^NP(y_j, \gamma_{j1},\cdots,\gamma_{jK}|\theta)\\ =\prod_{k=1}^K\prod_{j=1}^N[\alpha_k\phi(y_j|\theta_k)]^{\gamma_{jk}}\\ =\prod_{k=1}^K\alpha_k^{n_k}\prod_{j=1}^N[\frac{1}{\sqrt{2\pi}\sigma_k}\exp\{-\frac{(y_j-\mu_k)^2}{2\sigma_k^2}\}]^{\gamma_{jk}}\tag{12}$
其中 $nk=∑j=1Nγjk,∑k=1Knk=Nn_k=\sum\limits_{j=1}^N\gamma_{jk}, \sum\limits_{k=1}^Kn_k=N$
所以对数似然函数为 $log⁡P(y,γ∣θ)=∑k=1K{nklog⁡αk+∑j=1Nγjk[log⁡(12π)−log⁡σk−12σk2(yj−μk)2]}(13)\log P(y,\gamma|\theta)=\sum_{k=1}^K\{n_k\log\alpha_k+\sum\limits_{j=1}^N\gamma_{jk}[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}\tag{13}$

$∙E−step\bullet\quad E-step$
所以 $Q(θ,θ(i))=E[log⁡P(y,γ∣θ)∣y,θ(i)]=E{∑k=1K{nklog⁡αk+∑j=1Nγjk[log⁡(12π)−log⁡σk−12σk2(yj−μk)2]}=∑k=1K{∑j=1NE(γjk)log⁡αk+∑j=1NE(γjk)[log⁡(12π)−log⁡σk−12σk2(yj−μk)2]}(14)Q(\theta,\theta^{(i)})=E[\log P(y,\gamma|\theta)|y,\theta^{(i)}]=E\{\sum_{k=1}^K\{n_k\log\alpha_k+\sum\limits_{j=1}^N\gamma_{jk}[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}\\ =\sum_{k=1}^K\{\sum_{j=1}^NE(\gamma_{jk})\log\alpha_k+\sum_{j=1}^NE(\gamma_{jk})[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}\tag{14}$
注意到 $nk=∑j=1Nγjkn_k=\sum\limits_{j=1}^N\gamma_{jk}$ ，所以 $E(nk)=∑j=1NE(γjk)E(n_k)=\sum\limits_{j=1}^NE(\gamma_{jk})$

而 $E(γjk)=P(γjk=1∣y,θ)=P(γjk=1,yj∣θ)∑k=1KP(γjk=1,yj∣θ)=P(yj∣γjk=1,θ)P(γjk=1∣θ)∑k=1KP(yj∣γjk=1,θ)P(γjk=1∣θ)=αkϕ(yi∣θk)∑k=1Kαkϕ(yi∣θk)(15)E(\gamma_{jk})=P(\gamma_{jk}=1|y,\theta)\\ =\frac{P(\gamma_{jk}=1,y_j|\theta)}{\sum\limits_{k=1}^KP(\gamma_{jk}=1,y_j|\theta)}\\ =\frac{P(y_j|\gamma_{jk}=1,\theta)P(\gamma_{jk}=1|\theta)}{\sum\limits_{k=1}^KP(y_j|\gamma_{jk}=1,\theta)P(\gamma_{jk}=1|\theta)}\\ =\frac{\alpha_k\phi(y_i|\theta_k)}{\sum\limits_{k=1}^K\alpha_k\phi(y_i|\theta_k)}\tag{15}$
其中 $,Kj=1,2\cdots,N;\quad k=1,2\cdots,K$

所以 $E(γjk)E(\gamma_{jk})$ 可以看作是在当前模型参数下，第 $j$ 个观测数据来自第 $k$ 个分模型的概率，称为分模型 $k$ 对观测数据 $y_j$ 的响应度。

$∙M−step\bullet\quad M-step$
即 $θ(i+1)=arg⁡max⁡θQ(θ,θ(i))\theta^{(i+1)}=\arg\max\limits_{\theta}Q(\theta,\theta^{(i)})$ 。将 $Q(θ,θ(i))Q(\theta,\theta^{(i)})$ 分别对 $μk,σk2\mu_k, \sigma_k^2$ 分别求偏导并令其为0即可得到 $μ^k,σ^k2\hat{\mu}_k, \hat{\sigma}^2_k$ ，在 $∑k=1Kαk=1\sum\limits_{k=1}^K\alpha_k=1$ 的条件下，对 $αk\alpha_k$ 求偏导即可得到 $α^k\hat{\alpha}_k$ ：
$μ^k=∑j=1Nγ^jkyj∑j=1Nγ^jk(16)\hat{\mu}_k=\frac{\sum\limits_{j=1}^N\hat{\gamma}_{jk}y_j}{\sum\limits_{j=1}^N\hat{\gamma}_{jk}}\tag{16}$
$σ^k2=∑j=1Nγ^jk(yj−μk)2∑j=1Nγ^jk(17)\hat{\sigma}^2_k=\frac{\sum\limits_{j=1}^N\hat{\gamma}_{jk}(y_j-\mu_k)^2}{\sum\limits_{j=1}^N\hat{\gamma}_{jk}}\tag{17}$
$α^k=nkN=∑j=1Nγ^jkN(18)\hat{\alpha}_k=\frac{n_k}{N}=\frac{\sum\limits_{j=1}^N\hat{\gamma}_{jk}}{N}\tag{18}$
其中， $,Kk=1,\cdots,K$