高斯混合模型:聚类与异常检测的利器
1. 聚类算法概述
在低维空间中,谱聚类是一种聚类算法(Scikit - Learn 的实现使用 K - Means)。谱聚类能够捕捉复杂的聚类结构,还可用于图分割,例如识别社交网络中的好友群组。不过,它在处理大量实例时扩展性不佳,且当聚类大小差异很大时表现也不好。接下来,我们将深入探讨高斯混合模型,它可用于密度估计、聚类和异常检测。
2. 高斯混合模型基础
高斯混合模型(GMM)是一种概率模型,它假设实例是由多个参数未知的高斯分布混合生成的。从单个高斯分布生成的所有实例形成一个通常呈椭球形的聚类。每个聚类可以有不同的椭球形状、大小、密度和方向。
当观察到一个实例时,我们知道它是由某个高斯分布生成的,但不知道是哪一个,也不知道这些分布的参数。在最简单的 GMM 变体中,需要预先知道高斯分布的数量 k。数据集 X 假定是通过以下概率过程生成的:
- 对于每个实例,从 k 个聚类中随机选择一个聚类。选择第 j 个聚类的概率由聚类的权重 ϕ(j) 定义。第 i 个实例所选聚类的索引记为 z(i)。
- 如果 z(i)=j,即第 i 个实例被分配到第 j 个聚类,那么该实例的位置 x(i) 是从均值为 μ(j) 且协方差矩阵为 Σ(j) 的高斯分布中随机采样得到的,记为 x(i) ∼ N(μ(j), Σ(j))。
这个生成过程可以用图形模型表示,其中圆圈代表随机变量,方块代表固定值(即模型的参数),大矩形称为板块,指示其内容会重复多次,板块右下角的数字表示内容重复的次数。
3. 高斯混合模型的参数估计
使用 Scikit - Learn 的 Ga
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



