原型聚类
聚类方法常见的有原型聚类、密度聚类与层次聚类。原型聚类(prototype-based clustering)假设聚类结构能通过一组原型刻画,即每一个原型代表了对应的类别。高斯混合聚类,也称为高斯混合模型(Gaussian Mixture Model, GMM)是原型聚类的一种聚类方法。
高斯混合聚类
常用的k-means方法在非凸数据上效果很差,例如下方的环形数据集,两个类别的中心点都在中心,使用k-means方法无法将其区分。与采用向量来表示聚类原型的k-means、LVQ(learning vector quantization)不同,高斯混合模型采用概率模型来表示聚类原型。这种聚类方法可以得到每个样本点属于各个类的概率,而不是直接将样本点硬性划为某一类,因此也较为软聚类法。
GMM假设生成一个样本的概率为k个高斯成分生成该样本的概率的加权和,公式表示为:
P(x)=∑i=1kλip(x|ui,Σi) P ( x ) = ∑ i = 1 k λ i p ( x | u i , Σ i )
其中x为n维样本空间 X X 中的随机向量, 为服从均值向量 ui u i 和协方差矩阵 Σi Σ i 的第i个高斯分布:
p(x|ui,Σi)=1(2π)n2|Σi|12exp(−12(x−ui)TΣ−1i(x−ui)) p ( x | u i , Σ i ) = 1 ( 2 π ) n 2 | Σ i | 1 2 e x p ( − 1 2 ( x − u i ) T Σ i − 1 ( x − u i ) )
λi λ i 为相应的混合系数, λi>0 λ i > 0 且 ∑ki=1λi=1 ∑ i = 1 k λ i = 1 。
可以容易的发现,如果我们确定了参数