EM算法

最新推荐文章于 2024-10-25 21:21:29 发布

原创最新推荐文章于 2024-10-25 21:21:29 发布 · 1.9k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#算法

机器学习算法专栏收录该内容

17 篇文章

订阅专栏

本文深入探讨了EM算法在存在隐含变量时的学习方法，包括理论基础、算法表述及应用实例，如GMM模型参数学习。同时，阐述了EM算法的优缺点，并介绍了其在HMM模型参数学习中的应用。

EM算法

本文描述的EM算法(Expectation Maximization Algorithm)，是存在隐含变量时常用的一种学习方法。EM算法可用于变量的值从来没被直接观察到，但这些变量所遵循的分布的一般形式已知的情形。EM算法被用于训练贝叶斯网络、径向基函数网络，也是许多非监督聚类算法、学习部分可观察马尔科夫模型的广泛使用的Baum-Welch前向后向算法的基础。
同类的其他优化算法有：梯度下降、线搜索和共轭梯度。它们共同的局限性是可能收敛到局部最小点。

理论

定义
An elegant and powerful method for finding maximum likelihood solutions for models with latent variables is called the expectation-maximization algorithm, or EM algorithm (Dempster et al., 1977; McLachlan and Krishnan, 1997).
EM算法是在隐含变量中寻找最大似然估计的一种方法。
对存在多个极小值的解，对不同的初始条件，可能收敛到不同的局部最小点。可以通过采用不同的初始化值来解决。

EM算法的一般表述
令 $X=<x_1,...,x_m>$ 代表观测到的变量， $Z$ 代表未观测到的变量， $Y=X \bigcup Z$ 代表全部数据。
EM算法重复进行以下两个步骤，直至收敛。
估计 $(E)$ 步骤：使用当前的假设 $h$ 和观测数据 $X$ 来估计 $Y$ 的概率分布

Q (h | h^{'}) \leftarrow E [\ln p (Y | h^{'}) | h, X]

$Q (h|h' ) \leftarrow \mathrm E[\ln p(Y|h')|h,X]$
最大化 $(M)$ 步骤：将假设替换为使

Q Q $\ Q\$ 函数最大化的假设

h′h′ $h'$

h \leftarrow a r g m a x h' Q (h | h')

$h\leftarrow \mathop{ argmax }_{h'}\ Q(h|h' )$
其中，

Q Q $\ Q\$ 函数的表述为式

11 ${1}$

Q (h | h') = E [ln p (Y | h) | X, h'] = E [ln p (X, Z | h) | X, h'] (1)

$Q(h|h')=\mathrm E[\ln p(Y|h)|X,h']=\mathrm E[\ln p(X,Z|h)|X,h']\tag{1}$
将观测数据

XX $X$ 和上一次迭代得到的

h′h′ $h'$ 代入上式，

Q Q $\ Q\$ 为已知观测

X X $\ X\$ 和当前假设

h′h′ $h'$ 的前提下，关于变量

Z Z $\ Z\$ 的对数似然函数的期望，当为离散随机变量时，

Q Q $\ Q\$ 如式

22 $2$ 所示，当为连续随机变量时，只需将式

2

$2$ 中求和变为求积分即可。

Q (h | h') = E [ln p (X, Z | h) | X, h'] = \sum Z ln p (X, Z | h) p (Z | X, h') (2)

$Q(h|h')=\mathrm E[\ln p(X,Z|h)|X,h']=\displaystyle\sum_{Z}\ln p(X,Z|h) p(Z|X,h')\tag{2}$
注意

h′h′ $h'$ 用来求隐藏变量

ZZ $Z$ 的条件分布。
Why EM算法
优化的目标是使观测数据

X

$X$ （不完整数据）的对数似然函数

lnp(X|h) ln⁡p(X|h) $\ \ln p(X|h)$ 最大，该方法为极大似然法。但是在含有隐含变量

Z Z $\ Z\$ 的模型中，直接使用极大似然方法的解析解不易求出，如下阐述，需要借助EM算法逐步迭代求得的

h′ h′ $\ h'\$ 来使

lnp(X|h′) ln⁡p(X|h′) $\ \ln p(X|h')$ 不断逼近极大值。

ln p (X | h) = ln \sum Z p (X, Z | h) 或 ln p (X | h) = ln \int Z p (X, Z | h) d z (3)

$\ln p(X|h)=\ln \displaystyle\sum_{Z}p(X,Z|h) \ 或 \ \ln p(X|h)=\ln\displaystyle\int_{Z} p(X,Z|h)dz\tag{3}$
式

33 $3$ 的解析解之所以难求解是因为对数中含有加或积分运算，然而我们可以使用其他方法（如迭代逼近）近似求解式

3

$3$ 的极大值。以离散型随机变量为例，令

L(h)=lnp(X|h)=ln∑Zp(X,Z|h)=ln∑Zp(X|Z,h)p(Z|h)L(h)=ln⁡p(X|h)=ln∑Zp(X,Z|h)=ln∑Zp(X|Z,h)p(Z|h) $L(h)=\ln p(X|h)=\ln \displaystyle\sum_{Z}p(X,Z|h)=\ln \displaystyle\sum_{Z}p(X|Z,h)p(Z|h)$ ，则

L (h) - L (h') = ln \sum Z p (X | Z, h) p (Z | h) - ln p (X | h')

$L(h)-L(h') =\ln \displaystyle\sum_{Z}p(X|Z,h)p(Z|h)-\ln p(X|h')$
利用Jensen不等式可以得到其下界

L (h) - L (h') = ln \sum Z p (X | Z, h) p (Z | h) - ln p (X | h') = ln \sum Z p (X | Z, h') p ( X | Z , h ) p ( Z | h ) p ( X | Z , h ' ) - ln p (X | h') \geq \sum Z p (Z | X, h') ln p ( X | Z , h ) p ( Z | h ) p ( X | Z , h ' ) - ln p (X | h') = \sum Z p (Z | X, h') ln p ( X | Z , h ) p ( Z | h ) p ( X | Z , h ' ) p ( X | h ' ) (345) (346) (347) (348)

$\begin{align} L(h)-L(h') &=\ln \displaystyle\sum_{Z}p(X|Z,h)p(Z|h)-\ln p(X|h') \\ &= \ln\displaystyle\sum_{Z} p(X|Z,h')\frac{p(X|Z,h)p(Z|h)}{p(X|Z,h')}-\ln p(X|h')\\ &\ge \displaystyle\sum_{Z} p(Z|X,h')\ln\frac{p(X|Z,h)p(Z|h)}{p(X|Z,h')}-\ln p(X|h')\\ &=\displaystyle\sum_{Z} p(Z|X,h')\ln\frac{p(X|Z,h)p(Z|h)}{p(X|Z,h')p(X|h')} \end{align}$
令

B(h,h′)=L(h′)+∑Zp(Z|X,h′)lnp(X|Z,h)p(Z|h)p(X|Z,h′)p(X|h′)(4)(4)B(h,h′)=L(h′)+∑Zp(Z|X,h′)ln⁡p(X|Z,h)p(Z|h)p(X|Z,h′)p(X|h′) $B(h,h')=L(h')+\displaystyle\sum_{Z} p(Z|X,h')\ln\frac{p(X|Z,h)p(Z|h)}{p(X|Z,h')p(X|h')} \tag{4}$ 则

L (h) \geq B (h, h')

$L(h)\ge B(h,h')$

B(h,h′)B(h,h′) $B(h,h')$ 是

L(h)L(h) $L(h)$ 的下界，且由式

44 $4$ 可得

B (h^{'}, h^{'}) = L (h^{'})

$B(h',h')=L(h')$ .使

L(h′)L(h′) $L(h')$ 不断逼近

L(h)L(h) $L(h)$ 极大值的

h′h′ $h'$ ，也是

B(h′,h′)B(h′,h′) $B(h',h')$ 不断逼近

B(h,h′)B(h,h′) $B(h,h')$ 极大值的

h′h′ $h'$ ,所以式

33 $3$ 的极大值问题转化为求

B (h, h^{'})

$B(h,h')$ 的极大值问题。

h m a x = a r g m a x h B (h, h') = a r g m a x h (L (h') + \sum Z p (Z | X, h') ln p ( X | Z , h ) p ( Z | h ) p ( X | Z , h ' ) p ( X | h ' )) (349) (350)

$\begin{align} h_{max}&=\mathop{ argmax }_{h}\ B(h,h') \\ &=\mathop{ argmax }_{h}(L(h')+\displaystyle\sum_{Z} p(Z|X,h')\ln\frac{p(X|Z,h)p(Z|h)}{p(X|Z,h')p(X|h')}) \end{align}$
去掉求解

BB $B$ 极大值无关的常数项，得：

\begin{aligned} (351) & h_{m a x} & = \underset{h}{a r g m a x} (\sum_{Z} p (Z | X, h^{'}) \ln \frac{p (X | Z, h) p (Z | h)}{p (X | Z, h^{'}) p (X | h^{'})}) \\ (352) & = \underset{h}{a r g m a x} \sum_{Z} p (Z | X, h^{'}) \ln p (X | Z, h) p (Z | h) \\ (353) & = \underset{h}{a r g m a x} \sum_{Z} p (Z | X, h^{'}) \ln p (X, Z | h) \\ (354) & = \underset{h}{a r g m a x} Q (h | h^{'}) \end{aligned}

$\begin{align} h_{max}&=\mathop{ argmax }_{h}(\displaystyle\sum_{Z} p(Z|X,h')\ln\frac{p(X|Z,h)p(Z|h)}{p(X|Z,h')p(X|h')}) \\ &=\mathop{ argmax }_{h}\ \displaystyle\sum_{Z} p(Z|X,h')\ln{p(X|Z,h)p(Z|h)} \\ &=\mathop{ argmax }_{h}\ \displaystyle\sum_{Z} p(Z|X,h')\ln p(X,Z|h) \\ &=\mathop{ argmax }_{h}\ Q(h|h') \end{align}$
至此，推导了由关于观测(不完整)数据

XX $X$ 极大似然法到关于完整数据

Y

$Y$ 的期望最大EM法的过程。

优缺点

EM算法每次迭代都使得可能概率增加，具有单调性。

EM算法应用

学习GMM模型

GMM模型的概率分布由 $K$ 个服从 $\phi(x|\theta_k)(k \in(1,...,K))$ 分布的模型按权重 $a_k$ 线性叠加构成，即：

P (x | θ) = \sum k = 1 K α k ϕ (x | θ k)

$P(x|\theta)=\sum^{K}_{k=1}\alpha_k\phi(x|\theta_k)$
其中

ϕ(x|θk)=12π√σkexp(−(y−μk)22σ2k)ϕ(x|θk)=12πσkexp(−(y−μk)22σk2) $\phi(x|\theta_k)=\frac 1{\sqrt{2\pi}\sigma_k}exp(-\frac{(y-\mu_k)^2}{2\sigma^2_k})$ ，

∑Kk=1αk=1∑k=1Kαk=1 $\sum^{K}_{k=1}\alpha_k=1$ ,模型参数为

θ=(α1,...,αK,θ1,...,θK)θ=(α1,...,αK,θ1,...,θK) $\theta=(\alpha_1,...,\alpha_K,\theta_1,...,\theta_K)$ .EM算法用于学习GMM模型中的参数

θθ $\theta$ ，这些参数构成了算法中的假设

hh $h$ .可观测变量为

X = (x_{1}, . . ., x_{N})

$X=(x_1,...,x_N)$ .隐藏变量为

Z=(z1,...,zN)TZ=(z1,...,zN)T $Z=(z_1,...,z_N)^T$ ,其中

zn=(zn1,...,znK)(n∈(1,...,N))zn=(zn1,...,znK)(n∈(1,...,N)) $z_n=(z_{n1},...,z_{nK})(n\in(1,...,N))$ .

znkznk $z_{nk}$ 为0-1指示变量，表示

xnxn $x_n$ 是否由分布

ϕ(x|θk)ϕ(x|θk) $\phi (x|\theta_k)$ 产生，

znzn $z_n$ 中只有一个元素为1，则表示

ynyn $y_n$ 只能由

KK $K$ 个分布中的一个产生。完全变量为

Y = X ⋃ Z

$\ Y=X\bigcup Z \$ 。注意体会EM算法中的隐藏变量和未知参数（即假设）的不同。
完全数据的似然函数为：

P (X, Z | θ) = \prod n = 1 N p (x n, z n | θ) = \prod n = 1 N p (x n, z n 1, . . ., z n k | θ) = \prod n = 1 N ((α 1 ϕ (y n | θ 1)) z n 1 * . . . * (α K ϕ (y n | θ K)) z n K) = \prod n = 1 N \prod k = 1 K (α k ϕ (y n | θ k) z n k = \prod k = 1 K α m k k \prod n = 1 N (ϕ (y n | θ k) z n k = \prod k = 1 K α m k k \prod n = 1 N (1 2 π ‾ ‾ ‾ \sqrt σ k e x p (- ( y - μ k ) 2 2 σ 2 k)) z n k (11) (12) (13) (14) (15) (16)

$\begin{align} P(X,Z|\theta)&=\prod^N_{n=1}p(x_n,z_n|\theta) \\ &=\prod^N_{n=1}p(x_n,z_{n1},...,z_{nk}|\theta) \\ &=\prod^N_{n=1}({(\alpha_1\phi(y_n|\theta_1))}^{z_{n1}}*...*{(\alpha_K\phi(y_n|\theta_K))}^{z_{nK}})\\ &=\prod^N_{n=1}\prod^K_{k=1}{(\alpha_k\phi(y_n|\theta_k)}^{z_{nk}} \\ &=\prod^K_{k=1}\alpha^{m_k}_k\prod^N_{n=1}{(\phi(y_n|\theta_k)}^{z_{nk}} \\ &=\prod^K_{k=1}\alpha^{m_k}_k\prod^N_{n=1}{(\frac 1{\sqrt{2\pi}\sigma_k}exp(-\frac{(y-\mu_k)^2}{2\sigma^2_k}))}^{z_{nk}} \end{align}$
其中

mk=∑Nn=1znkmk=∑n=1Nznk $m_k=\sum^N_{n=1}z_{nk}$ ,

∑Kk=1mk=N∑k=1Kmk=N $\sum^K_{k=1}m_k=N$
完全数据的似然函数为：

ln P (X, Z | θ) = \sum k = 1 K m k ln α k + \sum k = 1 K \sum n = 1 N z n k (- ln 2 π ‾ ‾ ‾ \sqrt σ k - ( y - μ k ) 2 2 σ 2 k) (17)

$\begin{align} \ln P(X,Z|\theta)&=\displaystyle \sum^K_{k=1}m_k\ln\alpha_k \ +\ \displaystyle \sum^K_{k=1}\displaystyle \sum^N_{n=1}z_{nk}(-\ln\sqrt{2\pi}\sigma_k \ -\frac{(y-\mu_k)^2}{2\sigma^2_k}) \end{align}$
$E$ 步骤:确定

Q

$Q$ 函数

Q (θ | θ') = E (ln P (X, Z | θ) | X, θ') = E (\sum k = 1 K m k ln α k + \sum k = 1 K \sum n = 1 N z n k (- ln 2 π ‾ ‾ ‾ \sqrt σ k - ( y - μ k ) 2 2 σ 2 k)) = \sum k = 1 K \sum n = 1 N (E (z n k) ln α k + E (z n k) (- ln 2 π ‾ ‾ ‾ \sqrt σ k - ( y - μ k ) 2 2 σ 2 k)) (18) (19) (5)

$\begin{align} Q(\theta|\theta ')&=E(\ln P(X,Z|\theta)|X,\theta ') \\ &=E(\displaystyle \sum^K_{k=1}m_k\ln\alpha_k \ +\ \displaystyle \sum^K_{k=1}\displaystyle \sum^N_{n=1}z_{nk}(-\ln\sqrt{2\pi}\sigma_k \ -\frac{(y-\mu_k)^2}{2\sigma^2_k})) \\ &=\displaystyle \sum^K_{k=1}\displaystyle \sum^N_{n=1}(E(z_{nk})\ln\alpha_k \ + E(z_{nk})(-\ln\sqrt{2\pi}\sigma_k \ -\frac{(y-\mu_k)^2}{2\sigma^2_k}) ) \tag{5} \end{align}$
其中需要求解隐藏变量的期望

E(znk)E(znk) $E(z_{nk})$

E (z n k) = E (z n k | x, θ') = p (z n k = 1 | x, θ') = p ( z n k = 1 , x n | θ ' ) \sum k = K k = 1 p ( z n k = 1 , x n | θ ' ) = p ( x n | z n k = 1 , θ ' ) p ( z n k = 1 | θ ' ) \sum k = K k = 1 p ( x n | z n k = 1 , θ ' ) p ( z n k = 1 | θ ' ) = α ' k ϕ ( x n | θ ' k ) \sum k = K k = 1 α ' k ϕ ( x n | θ ' k ) (20) (21) (22) (23) (24)

$\begin{align} E(z_{nk})&=E(z_{nk}|x,\theta ') \\ &=p(z_{nk}=1|x,\theta ') \\ &=\frac {p(z_{nk}=1,x_n|\theta ')}{\sum^{k=K}_{k=1}p(z_{nk}=1,x_n|\theta ')} \\ &=\frac {p(x_n|z_{nk}=1,\theta ')p(z_{nk}=1 |\theta ')}{\sum^{k=K}_{k=1}p(x_n|z_{nk}=1,\theta ')p(z_{nk}=1 |\theta ')} \\ &=\frac {\alpha'_k \phi (x_n|\theta'_k)}{\sum^{k=K}_{k=1}\alpha'_k \phi (x_n|\theta'_k)} \end{align}$

E(znk)E(znk) $E(z_{nk})$ 表示

xnxn $x_n$ 由分布

ϕ(x|θk)ϕ(x|θk) $\phi(x|\theta_k)$ 产生的概率，也称分模型

ϕ(x|θk)ϕ(x|θk) $\phi(x|\theta_k)$ 对观测数据

xnxn $x_n$ 的响应度。将

E(znk)E(znk) $E(z_{nk})$ 代入式

55 $5$ 可得

Q

$Q$ 函数。

EE $E$ 步骤使用上一次迭代生成

θ^{'}

$\theta'$ 来计算包含

θθ $\theta$ 的

QQ $Q$ 函数。

$M$ 步骤：求解 $Q(\theta|\theta')$ 取得极大值的 $\theta$

θ m a x = a r g m a x θ Q (θ | θ')

$\theta_{max} =\mathop{ argmax }_{\theta}Q(\theta|\theta')$

θ={αk,μk,σk|k∈[1,..,K]}θ={αk,μk,σk|k∈[1,..,K]} $\theta=\lbrace\alpha_k,\mu_k,\sigma_k|k \in[1,..,K] \rbrace$ ,故求解

Q(θ|θ′)Q(θ|θ′) $Q(\theta|\theta')$ 极大值点的

θθ $\theta$ ，即将式

55 $5$ 分别对

α_{k}, μ_{k}, σ_{k}

$\alpha_k,\mu_k,\sigma_k$ 求偏导,并令这些偏导数等于

00 $0$ ,便可得到：

\begin{matrix} (6) & μ_{k} = \frac{\sum_{n = 1}^{N} E z_{n k} x_{n}}{\sum_{n = 1}^{N} E z_{n k}}, k = 1, . . ., K \end{matrix}

$\mu_k=\frac{\displaystyle\sum^N_{n=1}{Ez_{nk}x_n}}{\displaystyle\sum^N_{n=1}{Ez_{nk}}},k=1,...,K \tag{6}$

σ k = \sum n = 1 N E z n k ( y n - μ 2 ) \sum n = 1 N E z n k, k = 1, . . ., K (7)

$\sigma_k=\frac{\displaystyle\sum^N_{n=1}{Ez_{nk}(y_n-\mu_)^2}}{\displaystyle\sum^N_{n=1}{Ez_{nk}}} ,k=1,...,K \tag{7}$

α k = m k N = \sum n = 1 N E z n k N, k = 1, . . ., K (8)

$\alpha_k=\frac {m_k}N=\frac{\displaystyle\sum^N_{n=1}{Ez_{nk}}}{N},k=1,...,K \tag{8}$
迭代终止条件:重复进行

EE $E$ 步骤和

M

$M$ 步骤，直到参数或似然函数不再变化或变化足够小。
EM算法还用于HMM模型参数的非监督学习中，即仅知模型的观测序列O，隐含变量序列I未知，学习模型参数。

EM算法变种

GEM
推⼴EM算法（generalized EM algorithm，GEM）。⼀种使⽤GEM的⽅法是在M步骤中使⽤某种⾮线性最优化策略，例如共轭梯度算法。另⼀种形式的GEM算法，被称为期望条件最⼤化算法（expectation conditional maximization algorithm），或者简称ECM算法，涉及到在每个M步骤中进⾏若⼲了具有限制条件的最优化（Meng and Rubin, 1993）。