用EM算法求解高斯混合模型

最新推荐文章于 2025-07-28 11:56:28 发布

原创

最新推荐文章于 2025-07-28 11:56:28 发布 · 8k 阅读

51 ·

CC 4.0 BY-SA版权

文章标签：

#EM #GMM #算法 #matlab

本文详细介绍了如何使用EM算法求解高斯混合模型(GMM)。首先阐述了GMM的定义和性质，接着讲解了EM算法的原理，并展示了EM算法在GMM求解中的应用。实验部分通过MATLAB生成高斯混合分布数据，并利用EM算法进行求解，讨论了参数初始化和收敛性。

本文从高斯混合模型出发，引出EM算法，最后回归到利用EM算法求解高斯混合模型。理论部分力求详尽不留证明疑点，所以略显冗长。实验部分给出了生成高斯混合分布样本和利用EM算法求解高斯混合模型的matlab代码。

理论部分

高斯混合模型(GMM)

顾名思义，高斯混合模型就是由多个高斯分布混合构成的模型。 $K$ 高斯混合分布的概率密度为：
$p(\mathbf{x})=\sum_{k=1}^K \phi_k\mathcal{N}(\mathbf{x}|\boldsymbol{\mu}_k,\boldsymbol{\Sigma}_k).$
这里， $∑k=1Kϕk=1\sum_{k=1}^{K}\phi_k=1$ 为混合系数，
$\mathcal{N}(\mathbf{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol{\Sigma}|^{1/2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}$
为 $D$ 维高斯分布，其中 $μ\boldsymbol{\mu}$ 为其均值向量， $Σ\boldsymbol{\Sigma}$ 为其协方差矩阵。

直观来看，高斯混合分布可以看做下面分步过程的整合：
第一步，以 $ϕk\phi_k$ 概率选择第 $k$ 个高斯模型；
第二步，利用第 $k$ 个高斯模型生成一个样本 $x\mathbf{x}$ 。

为了讨论方便，记 $ϕ1,…,ϕK,μ1,…,μK,Σ1,…,ΣK}\theta=\{\phi_1,\dots,\phi_K,\boldsymbol{\mu}_1,\dots,\boldsymbol{\mu}_K,\boldsymbol{\Sigma}_1,\dots,\boldsymbol{\Sigma}_K\}$ 为高斯混合分布的参数集合。现在要解决的问题是，对于给定服从高斯混合分布的独立同分布样本集 $x1,…,xn}\mathbf{X}=\{\mathbf{x}_1, \dots, \mathbf{x}_n\}$ ，最大化其对数似然函数：
$\max_{\theta}\ln p(\mathbf{X}|\theta)=\sum_{i=1}^n\ln\sum_{k=1}^K\phi_k\mathcal{N}(\mathbf{x}_i|\boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k).$
这里， $p(X∣θ)=∏i=1np(xi∣θ)p(\mathbf{X}|\theta)=\prod\limits_{i=1}^np(\mathbf{x}_i|\theta)$ 。由于 $ln⁡\ln$ 函数里的求和项，我们无法直接求得闭式解，而利用EM算法可以得到一个局部最优数值解。

EM算法

从分步角度来看，求解高斯混合模型的难点在于，我们不知道一个样本 $xi\mathbf{x}_i$ 具体是由 $K$ 个高斯模型中的哪一个生成的。所以，对于第 $i$ 个样本 $xi\mathbf{x}_i$ 来说，我们构造一个隐变量 $z_i$ 用来表示 $xi\mathbf{x}_i$ 来自于哪个高斯模型。也即， $z_i=k$ 当且仅当 $xi\mathbf{x}_i$ 来自于第 $k$ 个高斯模型。注意，虽然这个隐变量的取值是客观确定的，但对我们来说是不可见，因此仍将其看作随机变量。记 $z1,…,zn}\mathbf{Z}=\{z_1,\dots,z_n\}$ ，对于固定的模型参数 $θˉ\bar{\theta}$ ，下面的不等式给出了EM算法的框架。
$\begin{aligned} \ln p(\mathbf{X}|\bar{\theta})&=\sum_{\mathbf{Z}}p(\mathbf{Z}|\mathbf{X},\bar{\theta})\ln p(\mathbf{X}|\bar{\theta})\\ &=\sum_{\mathbf{Z}}p(\mathbf{Z}|\mathbf{X},\bar{\theta})\ln\frac{p(\mathbf{X},\mathbf{Z}|\bar{\theta})}{p(\mathbf{Z}|\mathbf{X},\bar{\theta})} \\ &\leq\max_\theta \sum_{\mathbf{Z}}p(\mathbf{Z}|\mathbf{X},\bar{\theta})\ln\frac{p(\mathbf{X},\mathbf{Z}|\theta)}{p(\mathbf{Z}|\mathbf{X},\bar{\theta})} & (1)\\ &\leq \ln \sum_{\mathbf{Z}}\frac{p(\mathbf{X},\mathbf{Z}|\theta_{max})}{p(\mathbf{Z}|\mathbf{X},\bar{\theta})}p(\mathbf{Z}|\mathbf{X},\bar{\theta}) & (Jensen不等式)\\ &=\ln p(\mathbf{X}|\theta_{max}) \end{aligned}$