CS229课程笔记12：EM算法及混合高斯的应用

最新推荐文章于 2021-12-18 16:31:30 发布

原创最新推荐文章于 2021-12-18 16:31:30 发布 · 置顶 · 961 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #em算法 #cs229 #stanford

cs229 同时被 2 个专栏收录

4 篇文章

订阅专栏

机器学习

4 篇文章

订阅专栏

本文介绍了EM算法的基本原理及其在混合高斯模型中的应用。首先详细解释了EM算法如何通过引入隐变量来近似求解复杂概率分布的问题，并证明了其单调递增的收敛特性。随后给出了混合高斯模型中EM算法的具体实现步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Ng此部分先介绍了EM算法的步骤，然后证明了其一致递增性（收敛性），最后给出了应用于混合高斯的例子。

机器学习的一种任务是求取某个显示变量 $x$ 的概率分布 $P(x;\theta)$ ，但是鉴于 $P(x)$ 不属于常见的易于表示的（例如指数型的变形）概率分布，无法通过简易的最大log-likelihood的方式求取。一种方式就是假设存在某种隐变量 $z$ ， $P(x,z;\theta)$ 可以表示为简易概率分布的组合，例如 $P(x|z;\theta)$ 与 $P(z;\theta)$ 都是某种常见的概率分布，则可以通过EM算法最大化 $\arg\max_\theta P(X;\theta)$ 近似求解 $x$ 的概率分布。

更一般的，EM算法的目标是最大化 $P(x;\theta)$ ，假设存在隐变量 $z$ ，通过最大化 $P(x,z;\theta)$ 的某种形式，逐步最大化 $P(X;\theta)$ ，并且保证 $P(X;\theta)$ 在过程中单调递增，即保证了收敛性。值得注意的是通常情况下 $P(X;\theta)$ 是非凸的，所以单调递增只能保证收敛到某个局部极值（甚至是鞍点），即EM算法不保证找到最优值，通常的做法是多次初始化选取使得 $P(X;\theta)$ 最大的参数值。

EM算法

明确目标：最大似然，即采样得到训练集的概率最大。

arg max θ log P (X; θ) = arg max θ log \prod i = 1 m P (x i; θ) = arg max θ \sum i = 1 m log P (x i; θ)

$\arg\max_\theta\log P(X;\theta) = \arg\max_\theta\log \prod_{i=1}^mP(x_i;\theta)\\ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~= \arg\max_\theta\sum_{i=1}^m\log P(x_i;\theta)\\$
根据

log $\log$ 函数的性质（

log′(x)=1/x>0 $\log' (x)=1/x>0$ 以及

log′′(x)=−1/x2<0 $\log''(x)=-1/x^2<0$ ），可知

logEX≥ElogX $\log EX\ge E\log X$ （Jensen不等式）。因为

log′′(x) $\log ''(x)$ 严格小于

0 $0$ ，可知当且仅当

EX=X $EX=X$ （即

X $X$ 为常数）时

logEX=ElogX $\log EX=E\log X$ ，否则

logEX>ElogX $\log EX>E\log X$ 。

利用Jensen不等式，我们可以构造 $\log P(X;\theta)$ 的下部近似（其中 $x_i$ 是样本 $i$ 的显示变量，而 $z_i$ 是样本 $i$ 的隐变量， $z_i$ 的可能取值有 $k$ 个，样本数为 $m$ ， $Q(z_i=j;\theta)$ 为 $z_i$ 的某种概率分布）：

l (θ; X) = \sum i = 1 m log P (x i; θ) = \sum i = 1 m log \sum j = 1 k P (x i, z i = j; θ) = \sum i = 1 m log \sum j = 1 k Q (z i = j; θ) P ( x i , z i = j ; θ ) Q ( z i = j ; θ ) \geq \sum i = 1 m \sum j = 1 k Q (z i = j; θ) log P ( x i , z i = j ; θ ) Q ( z i = j ; θ )

$l(\theta;X) = \sum_{i=1}^m\log P(x_i;\theta)\\ = \sum_{i=1}^m\log\sum_{j=1}^k P(x_i,z_i=j;\theta)\\ = \sum_{i=1}^m\log\sum_{j=1}^k Q(z_{i}=j;\theta) \frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}\\ \ge \sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta) \log\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$
其中第三个不等式成立的条件是：

∀i∑kj=1Q(zi=j;θ)=1 $\forall i\sum_{j=1}^kQ(z_{i}=j;\theta) = 1$ 和

Q(zi=j;θ)≥0 $Q(z_i=j;\theta)\ge 0$ ，等号成立的条件是

∀i,∑kj=1Q(zi=j;θ)P(xi,zi=j;θ)Q(zi=j;θ)=P(xi,zi=j;θ)Q(zi=j;θ) $\forall i, \sum_{j=1}^k Q(z_{i}=j;\theta) \frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)} = \frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$ ，即

P(xi,zi=j;θ)Q(zi=j;θ) $\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$ 是个常数。

若仅仅需要不等式成立， $Q(z_i=j;\theta)$ 可以是任意概率分布，但是为了保证EM算法的单调递增性（即收敛性），我们需要保证等号在当前 $\theta$ 不变的情况下成立。即 $\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}=c$ ，结合 $\sum_{j=1}^kQ(z_{i}=j;\theta) = 1$ ，有 $c=\sum_{j=1}^kP(x_i,z_i=j;\theta)=P(x_i;\theta)$ ，进而 $Q(z_i=j;\theta)=P(z_i=j|x_i;\theta)$ 。

综上所述，EM算法的具体步骤如下：

E(Estimate)步骤：估计 $Q(z_i=j;\theta)=P(z_i=j|x_i;\theta)$ 。

M(Maximize)步骤：最大化 $l(\theta;X)$ 的下部近似： $\sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta) \log\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$ ，从而使得 $l(\theta;X)$ 递增。

收敛性验证也就十分直观：

l (θ'; X) \geq \sum i = 1 m \sum j = 1 k Q (z i = j; θ') log P ( x i , z i = j ; θ ' ) Q ( z i = j ; θ ' ) \geq \sum i = 1 m \sum j = 1 k Q (z i = j; θ) log P ( x i , z i = j ; θ ) Q ( z i = j ; θ ) = l (θ; X)

$~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~l(\theta';X)\ge\sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta') \log\frac{P(x_i,z_i=j;\theta')}{Q(z_{i}=j;\theta')}\\ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\ge \sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta) \log\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}\\ =l(\theta;X)$
第一个不等式成立的条件是Jensen不等式，第二个不等式成立的条件是M步骤的最大化，第三个等式的成立条件是E步骤中设定

Q(zi=j;θ) $Q(z_i=j;\theta)$ 使得

P(xi,zi=j;θ)Q(zi=j;θ) $\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$ 是常数。

EM算法的一次迭代过程的图示如下，其中黑线表示的 $l(\theta;X)$ 随 $\theta$ 的变换过程，红线是E步骤近似 $Q(z_i=j;\theta)$ 之后 $\sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta) \log\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$ 随 $\theta$ 的变化过程。图中 $\theta$ 为迭代前的参数值，而 $\theta'$ 是迭代后的参数值。注意到通过E步骤近似 $Q(z_i=j;\theta)$ ，得到的红线与黑线在 $\theta$ 处相切，即 $l(\theta;X)= \sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta) \log\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$ 。同时根据Jensen不等式，红线一致位于黑线下方，即 $\sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta) \log\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$ 是 $l(\theta;X)$ 的下部近似。M步骤最大化红线的取值，并更改参数值为 $\theta'$ ，注意到黑线在 $\theta'$ 处的取值（ $l(\theta';X)$ ）大于红线在 $\theta'$ 处的取值（ $\sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta') \log\frac{P(x_i,z_i=j;\theta')}{Q(z_{i}=j;\theta')}$ ）大于红线在 $\theta$ 处的取值（ $\sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta) \log\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$ ）等于黑线在 $\theta$ 处的取值 $l(\theta;X)$ ，即每次迭代都使得 $l(\theta;X)$ 递增。

EM_alg

Ng还给出了EM算法的另一种看待方式：设 $J(Q,\theta;X)= \sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta) \log\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$ ，则EM算法可以看做是 $J$ 的坐标轴递增算法。E步骤更新 $Q(z_i=j;\theta)$ 使得 $J(Q',\theta;X)=l(\theta;X)\ge J(Q,\theta;X)$ ；M步骤更新 $\theta$ 使得 $\theta'=\arg\max_\theta J(Q,\theta;X)$ 。根据 $J(Q,\theta;X)$ 的单调性，从而证明了EM算法的收敛性。

混合高斯算法

目标：求解 $\arg\max_\theta\log P(X;\theta)$ ，其中 $\theta=\{\phi_{j=1\cdots k},\mu_{j=1\cdots k},\Sigma_{j=1\cdots k}\}$ 。

假设：存在隐变量 $z$ ，其中 $z$ 服从多项式分布，有 $P(z=j)=\phi_j$ 以及 $\sum_{i=1}^k\phi_j=1$ 。 $p(x|z)$ 服从高斯分布，有 $p(x|z=j)\sim N(\mu_j,\Sigma_j)$ 。

使用EM算法：

E步骤：估计 $\gamma_{ij} = p(z_i=j|x_i;\theta^{(t)})$ 进而估计 $\sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta) \log\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$ 。

p (z i = j | x i; θ) = p ( z i = j , x i ; θ ) \sum k h = 1 p ( z i = h , x i ; θ ) = p ( z i = j ; θ ) p ( x i | z i = j ; θ ) \sum k h = 1 p ( z i = j ; θ ) p ( x i | z i = j ; θ ) = ϕ j 1 2 π | Σ j | \sqrt exp ( - 1 2 ( x i - μ j ) T Σ j ( x i - μ j ) ) \sum k h = 1 ϕ h 1 2 π | Σ h | \sqrt exp ( - 1 2 ( x i - μ h ) T Σ h ( x i - μ h ) )

$p(z_i=j|x_i;\theta) = \frac{p(z_i=j,x_i;\theta)}{\sum_{h=1}^kp(z_i=h,x_i;\theta)}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ = \frac{p(z_i=j;\theta)p(x_i|z_i=j;\theta)}{\sum_{h=1}^kp(z_i=j;\theta)p(x_i|z_i=j;\theta)}~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ = \frac{\phi_j\frac 1 {\sqrt{2\pi|\Sigma_j|}}\exp(-\frac 1 2(x_i-\mu_j)^T\Sigma_j(x_i-\mu_j))}{\sum_{h=1}^k\phi_h\frac 1 {\sqrt{2\pi|\Sigma_h|}}\exp(-\frac 1 2(x_i-\mu_h)^T\Sigma_h(x_i-\mu_h))}\\$

\sum i = 1 m \sum j = 1 k Q (z i = j; θ) log P ( x i , z i = j ; θ ) Q ( z i = j ; θ ) = \sum i = 1 m \sum j = 1 k γ i j log P ( x i , z i = j ; θ ) γ i j = \sum i = 1 m \sum j = 1 k γ i j log ϕ j 1 2 π | Σ j | \sqrt exp ( - 1 2 ( x i - μ j ) T Σ j ( x i - μ j ) ) γ i j

$\sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta) \log\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}=\sum_{i=1}^m\sum_{j=1}^k \gamma_{ij} \log\frac{P(x_i,z_i=j;\theta)}{\gamma_{ij}}\\ =\sum_{i=1}^m\sum_{j=1}^k \gamma_{ij} \log\frac{\phi_j\frac 1 {\sqrt{2\pi|\Sigma_j|}}\exp(-\frac 1 2(x_i-\mu_j)^T\Sigma_j(x_i-\mu_j))}{\gamma_{ij}}\\$

M步骤：最大化 $\sum_{i=1}^m\sum_{j=1}^k Q(z_{i}=j;\theta) \log\frac{P(x_i,z_i=j;\theta)}{Q(z_{i}=j;\theta)}$ 实际为分别最大化带权重的高斯分布（因为 $z_i$ 的各个取值互不影响）；对 $\phi_j$ 的最优化需要结合 $\sum_{j=1}^k\phi_j=1$ ，同样是最大化带权重的多项式分布。综上可得：

ϕ j = \sum m i = 1 γ i j \sum k h = 1 \sum m i = 1 γ i h μ j = \sum m i = 1 γ i j x i \sum m i = 1 γ i j Σ j = \sum m i = 1 γ i j ( x i - μ j ) ( x i - μ j ) T \sum m i = 1 γ i j

$\phi_j = \frac{\sum_{i=1}^m\gamma_{ij}}{\sum_{h=1}^k\sum_{i=1}^m\gamma_{ih}}\\ \mu_j = \frac{\sum_{i=1}^m\gamma_{ij}x_i}{\sum_{i=1}^m\gamma_{ij}}\\ \Sigma_j = \frac{\sum_{i=1}^m\gamma_{ij}(x_i-\mu_j)(x_i-\mu_j)^T}{\sum_{i=1}^m\gamma_{ij}}\\$