EM算法与高斯混合模型

最新推荐文章于 2025-06-27 01:34:58 发布

木公鼠跪鱼

最新推荐文章于 2025-06-27 01:34:58 发布

阅读量1.7k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：学习笔记文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/weixin_39337018/article/details/82012797

学习笔记专栏收录该内容

6 篇文章

订阅专栏

EM算法与高斯混合模型
Jensen不等式
极大似然估计
EM算法
高斯混合模型
- 高斯分布
- EM算法求解GMM的步骤

EM算法与高斯混合模型

EM算法（The Expectation-Maximization Algorithm）可以解决HMM的参数估计问题，在MT中的词对齐中也会用到。

Jensen不等式

Jensen不等式表述如下：
如果f是凸函数，X是随机变量，那么 $\begin{equation*} E[f(X)]\geq f(E[X]) \end{equation*}$ 特别地，如果f是严格凸函数，那么 $\begin{equation*} E[f(X)] = f(E[X]) \end{equation*}$ ;当且仅当 $p(x = E[x])=1$ ,也就说 $X$ 是常量。用图表示就是：

Jensen不等式应用于凹函数时，不等号方向反向，也就是 $\begin{equation*} E[f(X)]\leq f(E[X]) \end{equation*}$

Jensen’s Inequality
当 $f$ 为凸函数且 $\sum_i \lambda_i =1 ,\ \lambda_i \ge 0$ 时，有 $f(\sum_i\lambda_ix_i) \le \sum_i \lambda_i f(x_i)$

极大似然估计

极大似然估计(Maximum Likelihood Estimation)提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。但其前提是，假设所有的采样都是独立同分布的。
假设 ${x_1,x_2,\dots,x_n}~dii$ ,参数为θ的模型f产生上述采样可表示为:

f (x 1, x 2, \dots, x n | θ) = f (x 1 | θ) \cdot f (x 2 | θ), \dots, \cdot f (x n | θ)

$f(x_1,x_2,\dots,x_n|\theta) = f(x_1|\theta)\cdot f(x_2|\theta),\dots,\cdot f(x_n|\theta)$
此时

x1,x2,…,xn x 1 , x 2 , … , x n $x_1,x_2,\dots,x_n$ 为已知，

θ θ $\theta$ 为未知，则定义为

L (θ | x 1, x 2, \dots, x n) = f (x 1, x 2, \dots, x n | θ) = \prod i = 1 n f (x i | θ)

$L(\theta|x_1,x_2,\dots,x_n) = f(x_1,x_2,\dots,x_n|\theta) = \prod_{i=1}^n f(x_i|\theta)$
在实际应用中常用的是两边取对数（Ln 或者 log不影响），得到公式如下：

ln L (θ | x 1, x 2, \dots, x n) = \sum i = 1 n ln f (x i | θ) ι^= 1 n ln L

$\ln L(\theta|x_1,x_2,\dots,x_n) = \sum_{i=1}^n \ln f(x_i|\theta) \space \space\space \hat{\iota} =\frac{1}{n}\ln L$
其中

lnL(θ|x1,x2,…,xn) ln ⁡ L ( θ | x 1 , x 2 , … , x n ) $\ln L(\theta|x_1,x_2,\dots,x_n)$ 称为对数似然，而

ι^ ι ^ $\hat{\iota}$ 称为平均对数似然。而我们平时所称的最大似然为最大的对数平均似然，即：

θ = arg max θ L (θ | X)

$\begin{equation*} \theta=\arg\max_\theta{L(\theta|X)} \end{equation*}$
显然对

L(θ|X) L ( θ | X ) $L(\theta|X)$ 求导，令导数得0 ，求得的解即为最优的

θ∗ θ ∗ $θ^∗$ 了,而且对MLE来说数据量越多，所得到的模型会越能反映数据的真实分布。

EM算法

期望最大化算法（Expectation Maximization Algorithm，EM）用于含有隐变量概率模型的MLE，隐变量就是每个可见随机变量的值都对应着一个隐藏的随机变量。参见三硬币模型实例

问题描述

给定一个训练集 $X={x^1,…,x^{m}}$ ，我们希望拟合包含隐含变量z的模型 $P(x,z;θ)$ 中的参数 θ。根据模型的假设，每个我们观察到的 $x^{i}$ 还对应着一个我们观察不到的隐含变量 $z^{i}$ ，我们记 $Z={z^{1},…,z^{m}}$ 。做极大对数似然就是要求θ的“最优值”：

θ = arg max θ L (θ | X)

$\begin{equation*} \theta=\arg\max_\theta{L(\theta|X)} \end{equation*}$
其中

L (θ) = log P (X | θ) = log \sum Z P (X, Z | θ)

$\begin{equation*} L(\theta) =\log{P(X|\theta)}=\log{\sum_Z P(X,Z|\theta)} \end{equation*}$
直接使用log 套∑的形式直接求解θ往往非常困难。EM 通过迭代逐步极大化

L(θ) L ( θ ) $L(\theta)$ ，假设第i次迭代后θ的估计值是

θi,θi θ i , θ i $θ^{i},θ^{i}$ 已知后，下一次迭代需要使得

L(θ) L ( θ ) $L(\theta)$ 更大.

EM算法基本步骤

输入:观测数据X，隐变量数据 Z，联合分布 $P(X,Z|\theta)$
输出：极大似然参数θ
1. 选择初始参数 $θ^{0}$ ；
2. E Step：计算隐变量 $Z$ 在参数 $θ^{i}$ 下的后验分布 $P(Z|X,\theta^{i})$ 以得到：

$E Z | X; θ i L (θ | X, Z) : = E Z | X; θ i log P (X, Z | θ) = \sum Z P (Z | X, θ i) log P (X, Z | θ)$ $\begin{align*} E_{Z|X;\theta^i}L(\theta|X,Z) &:= E_{Z|X;\theta^i}\log{P(X,Z|\theta)} \\ &= \sum_Z P(Z|X,\theta^i) \log{P(X,Z|\theta)} \end{align*}$
3. M Step：估计 $θ^{(i+1)}$ 的值：
$θ (i + 1) = a r g max θ E Z | X, θ i L (X, Z | θ)$ $\theta^{(i+1)} = arg \max_{\theta}E_{Z|X,\theta_i}L(X,Z|\theta)$
4. 重复（2）至（3），直到收敛.

EM 算法每次迭代都建立在上轮迭代对θ的最优值的估计 $θ^i$ 上,利用它可以求出Z的后验概率 $P(Z|X,θ^i)$ ，进而求出 $L(θ|X,Z)$ 在分布 $Z∼P(Z|X,θ)$ 上的期望 $E_{Z|X;θ^i}L(θ|X,Z)$ 。

因为 $\arg\max_\theta L(\theta|X,Z)$ 在未知Z的情况下难以直接计算,EM算法就转而通过最大化它的期望 $E_{Z|X;θ^i}L(θ|X,Z)$ 来逼近θ的最优值，得到 $θ^{(t+1)}$ 。注意由于 $L(θ|X,Z)$ 的这个期望是在Z的一个分布上求的，这样得到的表达式就只剩下θ一个未知量，因而绕过了z未知的问题。而 $θ^{(i+1)}$ 又可以作为下轮迭代的基础，继续向最优逼近。

算法中E-step就是在利用 $θ^i$ 求期望 $E_{Z|X;θ^i}L(θ|X,Z)$ ，这就是所谓“Expectation”；
M-step就是通过寻找 $θ^{(i+1)}$ 最大化这个期望来逼近θ的最优值，这就“Maximization”。

EM算法推导

L (θ) = log P (X | θ) = log \sum Z P (X, Z | θ)

$\begin{align*} L(\theta) &= \log{P(X|\theta)} \\ &= \log{\sum_Z P(X,Z|\theta)} \end{align*}$
引入一个概率分布

Q(θ,θi)=EZ|X,θilogL(θ|X,Z)=P(Z|X,θi) Q ( θ , θ i ) = E Z | X , θ i log ⁡ L ( θ | X , Z ) = P ( Z | X , θ i ) $Q(\theta,\theta^i) =E_{Z|X,\theta^i} \log L(\theta|X,Z)=P(Z|X,\theta^i)$ ,利用分子分母同乘

Q(θ,θi) Q ( θ , θ i ) $Q(\theta,\theta^i)$ 的trick(期望可以写成概率和样本的乘积形式)，得到：

L (θ) = log \sum Z P (X, Z | θ) = log \sum Z Q (θ, θ i) P ( X , Z | θ ) Q ( Z ) = log E Z \sim Q [P ( X , Z | θ ) Q ( Z )]

$\begin{align*} L(\theta) &= \log{\sum_Z P(X,Z|\theta)} \\ &= \log{\sum_Z Q(\theta,\theta^i) \frac{P(X,Z|\theta)}{Q(Z)}} \\ &= \log E_{Z \sim Q}\left[ \frac{P(X,Z|\theta)}{Q(Z)} \right] \end{align*}$
根据 Jensen 不等式,对于任意分布

Q Q $Q$ 都有：

L (θ) = \log E_{Z \sim Q} [\frac{P (X, Z | θ)}{Q (θ, θ^{i})}] \geq E_{Z \sim Q} [\log \frac{P (X, Z | θ)}{Q (Z)}]

$\begin{equation*} L(\theta) = \log E_{Z \sim Q}\left[ \frac{P(X,Z|\theta)}{Q(\theta,\theta^i)} \right] \geq E_{Z \sim Q}\left[ \log\frac{P(X,Z|\theta)}{Q(Z)} \right] \end{equation*}$
且上面的不等式在

P(X|Z,θ)Q(θ,θi) P ( X | Z , θ ) Q ( θ , θ i ) $\frac {P(X|Z,\theta)} {Q(\theta,\theta^i)}$ 为常数时取等号。之后

Q（θ,θi） Q （ θ , θ i ） $Q（\theta,\theta^i）$ 用贝叶斯公式展开：

Q (θ, θ i) = P ( X | Z , θ i ) P ( Z | θ i ) P ( X | θ i )

$Q(\theta,\theta^i) = \frac {P(X|Z,\theta^i)P(Z|\theta^i)} {P(X|\theta^i)}$
带入回上式：

L (θ) \geq E Z | X, θ i [log P ( X , Z | θ ) P ( Z | X , θ i )] = E Z | X, θ i log [P ( X | Z ) P ( Z | θ ) P ( X | θ i ) P ( X | Z , θ i ) P ( Z | θ i )] = E Z | X, θ i log [P ( Z | θ ) P ( X | θ i ) P ( Z | θ i )] = E Z | X; θ i [log P (Z | θ)] + E Z | X; θ i [log P (X | θ i)] - E Z | X; θ i [log P (Z | θ i)] = Q (θ, θ i) - Q (θ i, θ i) + L (θ i)

$\begin{align*} L(\theta) &\geq E_{Z|X,\theta^i}\left[ \log\frac{P(X,Z|\theta)}{P(Z|X,\theta^i)} \right] \\ &= E_{Z|X,\theta^i} \log[\frac {P(X|Z)P(Z|\theta)P(X|\theta^i)} {P(X|Z,\theta^i)P(Z|\theta^i)}] \\ &= E_{Z|X,\theta^i} \log [\frac {P(Z|\theta)P(X|\theta^i)} {P(Z|\theta^i)}] \\ &= E_{Z|X;\theta^i}[\log P(Z|\theta)]+E_{Z|X;\theta^i}[\log P(X|\theta^i)]-E_{Z|X;\theta^i}[\log P(Z|\theta^i)]\\ &=Q(\theta,\theta^i)-Q(\theta^i,\theta^i)+L(\theta^i) \end{align*}$
第二行

P(X|Z),P(X|Z,θi) P ( X | Z ) , P ( X | Z , θ i ) $P(X|Z),P(X|Z,\theta^i)$ 这两个其实相同所以约去；最后一行在已知

θi θ i $\theta^i$ 时，仅

Q(θ,θi) Q ( θ , θ i ) $Q(\theta,\theta^i)$ 不固定,所以需要不断调整下一时刻

θ θ $\theta$ 使之最大。即可得到：

θ t + 1 : = arg max θ Q (θ, θ i)

$\theta^{t+1}:= \arg\max_\theta Q(\theta,\theta^i)$

除以上方法推导，还可以用前项减后项方法推导 $L(\theta)-L(\theta^{(i)})$
具体见The Expectation Maximization Algorithm A short tutorial

高斯混合模型

高斯分布

假设数据 $x∈R^n$ 服从参数为 $μ,Σ$ 的高斯分布:

N (x; μ, Σ) = 1 ( 2 π ) n / 2 | Σ | 1 / 2 exp {- 1 2 (x - μ) T Σ - 1 (x - μ)}

$\mathcal{N}(\mathbf{x};\mu,\mathbf{\Sigma}) = \frac{1}{(2\pi)^{n/2}|\mathbf{\Sigma}|^{1/2}}\exp\left \{ -\frac{1}{2} (\mathbf{x}-\mu)^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\mu) \right \}$
这里

μ μ $μ$ 为均值，

Σ

$Σ$ 为协方差矩阵，对于单个高斯分布，当给定数据集之后，直接进行 MLE 即可估计高斯分布的参数；但是有些数据集是多个高斯分布叠加在一起形成的，也就数据集是由多个高斯分布产生的，如下图所示三个高斯分布叠加在一起：
高斯混合模型图

多个高斯分布叠加在一起便是混合高斯模型 GMM,其的定义如下：

p (x) = \sum k = 1 K π k N (x | μ k, Σ k)

$p(\mathbf{\mbox{x}}) = \sum_{k=1}^K \pi_k \mathcal{N}(\mathbf{\mbox{x}} | \mathbf{\mu}_k, \mathbf{\Sigma}_k)$
这里

K K $K$ 表示高斯分布的个数,

π_{k}

$π_k$ 代表混合系数,且满足

0≤πk≤1,∑kπk=1 0 ≤ π k ≤ 1 , ∑ k π k = 1 $0 \le \pi_k \le 1,\sum_k\pi_k = 1$ ,可以把

πk π k $\pi_k$ 看做每个模型的权重。如果把 GMM 用在聚类中，则样本x的类别即为

argmaxkπk arg ⁡ max k π k $\arg\max_k\pi_k$

在 GMM 中，需要估计的参数为 $\pi_k， \mu_k， \mathbf{\Sigma}_k$ 模型里每个观测数据x都对应着一个隐变量 $\mathbf{z} \in \mathbb{R}^K$ ，代表的即为类别变量，且 $\mathbf{z}_k \in \left \{ 0,1\right \}$ ,一个样本可以属于多个类别，叠加起来概率为 1，这里显而易见有：

p (z k = 1) = π k

$p(\mathbf{z}_k = 1) = \pi_k$
对于GMM的参数采用EM算法来求解，其完全数据的联合分布为：

p (X, Z | μ, Σ, π) = \prod n = 1 N {\sum k = 1 K π k N (x n | μ k, Σ k)}

$p(\mathbf{X,Z} | \mathbf{\mu, \Sigma, \pi}) = \prod_{n=1}^N \left \{ \sum_{k=1}^K \pi_k \mathcal{N}(\mathbf{\mbox{x}}_n \vert \mathbf{\mu}_k, \mathbf{\Sigma}_k) \right \}$
写成对数似然函数的形式：

ln p (X,Z | μ, Σ, π) = \sum n = 1 N ln {\sum k = 1 K π k N (x n | μ k, Σ k)}

$\ln p(\mathbf{\mbox{X,Z}} | \mathbf{\mu, \Sigma, \pi}) = \sum_{n=1}^N \ln \left \{ \sum_{k=1}^K \pi_k \mathcal{N}(\mathbf{\mbox{x}}_n | \mathbf{\mu}_k, \mathbf{\Sigma}_k) \right \}$

EM算法求解GMM的步骤

E步： 使用参数 $\theta^{old}=(\pi^{old},\mu^{old},\mathbf{\Sigma}^{old})$ ，计算每个样本 $x_n$ 对应隐变量 $z_n$ 的后验分布：

$γ (z n k) = p (z n = k | x n; μ o l d, Σ o l d) = p ( z n k = 1 ) p ( x n k | z n k = 1 ) \sum K j = 1 p ( z n j = 1 ) p ( x n | z n j = 1 ) = π o l d k N ( x n | μ o l d k , Σ o l d k ) Σ K j = 1 π o l d j N ( x n | μ o l d j , Σ o l d j )$ $\begin{aligned} \gamma(z_{nk})=p(z_n = k|\mathbf{x}_n;\mathbf{\mu}^{old},\mathbf{\Sigma}^{old}) &=\frac{p(z_{nk} = 1)p(\mathbf{x_{nk}}|z_{nk} = 1)}{\sum_{j=1}^Kp(z_{nj} = 1)p(\mathbf{x_n}|z_{nj} = 1)}\\ &= \frac{ \pi_k^{old} \mathcal{N}(\mathbf{\mbox{x}}_n | \mathbf{\mu}_k^{old}, \mathbf{\Sigma}_k^{old})} {\Sigma_{j=1}^K\pi_j^{old} \mathcal{N}(\mathbf{\mbox{x}}_n | \mathbf{\mu}_j^{old}, \mathbf{\Sigma}^{old}_j)} \end{aligned}$
M步： 极大化Q函数的计算
$Q (θ, θ old) = \sum Z p (Z | X, θ o l d) ln p (X, Z | θ) = \sum Z p (Z | X, θ o l d) ln p (X | Z, θ) P (Z | θ) = \sum n = 1 N \sum k = 1 K γ (z n k) {ln π k + ln N (x n | μ k, Σ k)}$ $\begin{aligned} \mathcal{Q} (\mathbf{\theta}, \mathbf{\theta}^{\mbox{old}}) &= \sum_{Z} p(Z | X,\theta^{old}) \ln p(X, Z | \theta)\\ &= \sum_{Z} p(Z | X,\theta^{old}) \ln p(X| Z ,\theta)P(Z|\theta)\\ &=\sum_{n= 1}^N \sum_{k=1}^K\gamma(z_{nk})\left \{ \ln \pi_k +\ln\mathcal{N}(\mathbf{x}_n|\mathbf{\mu}_k ,\mathbf{\Sigma}_k) \right \}\\ \end{aligned}$
得到下一步迭代的参数：
$θ n e w = arg max θ Q (θ, θ old)$ $\theta^{new}=\arg\max_{\theta}\mathcal{Q} (\mathbf{\theta}, \mathbf{\theta}^{\mbox{old}})$

对Q函数求导，令倒数得0，即可求得下一次迭代的参数值

$μ n e w k Σ n e w k π n e w k = 1 N k \sum n = 1 N γ (z n k) x n = 1 N k \sum n = 1 N γ (z n k) (x n - μ n e w k) (x n - μ n e w k) T = N k N$ $\begin{aligned} \mathbf{\mu}_k^{new} &= \frac{1}{N_k}\sum_{n=1}^N\gamma(z_{nk})\mathbf{x}_n\\ \mathbf{\Sigma}_k^{new} &= \frac{1}{N_k}\sum_{n=1}^N\gamma(z_{nk})(\mathbf{x}_n-\mathbf{\mu}_k^{new})(\mathbf{x}_n-\mathbf{\mu}_k^{new})^T \\ \mathbf{\pi}_k^{new} &= \frac{N_k}{N} \end{aligned}$
其中：
$N k = \sum n = 1 N γ (z n k)$ $N_k = \sum_{n=1}^N \gamma(z_{nk})$