高斯混合模型(GMM)
无论是k-means、层次聚类还是DBSCAN,聚类后都是有明显的“分界线”的,但如果是两个混合在一起的数据,这些方法就不能很好地聚类了,而GMM却能很好地对这类混合数据进行分类,GMM是利用同类数据呈现高斯分布的原理对数据进行区分的。
1、步骤
第一步:初始化k个高斯分布;
GMM必需的参数,n_components,指定聚类的数量
第二步:将数据软聚类成我们初始化的k个高斯;
初始化高斯分布的均值μ\muμ和方差σ2\sigma^2σ2,初始化权值、均值和精度的方法有以下两种方法:
第一种方法:随机生成
第二种方法:kmeans(默认)
第三步:软聚类
概率密度函数:
N(X∣μ,σ2)=12πσe−(x−μ)22σ2N(X|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}N(X∣μ,σ2)=2πσ1e−2σ2(x−μ)2
隶属度:
E[Z1A]=N(Xi∣μA,σA2)∑j=1mN(Xi∣μj,σj2)E[Z_{1A}] = \frac{N(X_i|\mu_A,\sigma_A^2) }{\sum_{j=1}^{m}N(X_i|\mu_j,\sigma_j^2) }