高斯混合聚类与EM算法

最新推荐文章于 2020-11-18 14:55:09 发布

原创

最新推荐文章于 2020-11-18 14:55:09 发布 · 1.8k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #数据挖掘

本文详细介绍了高斯混合聚类的概念，通过概率模型表达了聚类原型，并探讨了高斯混合分布与EM算法的联系。文章阐述了如何使用高斯分布进行聚类，解释了EM算法在求解高斯混合模型中的应用，以及EM算法的迭代更新过程。最后，通过实例展示了高斯混合聚类的实现步骤和结果可视化。

高斯混分聚类

高斯混合(Mixture-of-Gaussian)聚类采用概率模型来表达聚类原型，我们先大概回忆一下高斯分布的概率密度函数，对于n维样本空间 $\Omega$ 中的随机变量 $\textbf{x}$ ，如果 $\textbf{x}$ 服从高斯分布，其概率密度函数为：

我们可以看到其中的高斯分布完全由 $\mu$ 和 $\mathbf{\Sigma}$ 这两个参数确定。为了明确的显示高斯分布与相应参数的依赖关系，将概率密度函数记为 $p(\boldsymbol{x} | \boldsymbol{\mu}, \mathbf{\Sigma})$ 。我们可以定义高斯混合分布为：

上面这个式子就是多个高斯分布的概率密度函数加权求和得到了一个混合概率密度。很明显 $\sum_{i=1}^{k} \alpha_{i}=1$ 。 $\alpha_{i}>0$ 为相应的混合系数。所以我们得到了高斯混合分布的概率密度函数：

$p_{\mathcal{M}}(\boldsymbol{x})=\sum_{i=1}^{k} \alpha_{i}\cdot \frac{1}{(2 \pi)^{\frac{n}{2}}|\mathbf{\Sigma}_i|^{\frac{1}{2}}} e^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_i)^{\mathrm{T}} \boldsymbol{\Sigma}_i^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_i)}$

所以我们如何使用高斯分布来进行我们的聚类。

前提：样本的生成过程由高斯混合分布给出。首先，根据混合系数 $\alpha _1,\alpha _2,...,\alpha _k$ 定义的先验分布来选择高斯混合成分，就是说我这个样本到底是符合哪个高斯分布， $\alpha _1,\alpha _2,...,\alpha _k$ 分别对应k个高斯分布的系数；然后，根据被选择的混合成分的概率密度函数进行采样，从而生成相应的样本。个人理解就是：这些样本要不就符合单个的高斯分布函数，要不就符合混合高斯分布函数，那既然是这样，我们就能通过估计具体的参数来判断样本到底属于什么样的高斯分布，属于相同参数的高斯分布自然聚为一个簇。