1.k-means聚类的缺点
k-means聚类使用欧式距离为距离函数时,其二维本质是,以每个簇质心为圆心圈出来的一个一个圆圈。用这个圆将原始数据进行截断分类,但是实际数据分布不一定全是标准的圆形,还可能是椭圆等。这使得它对许多数据的分类拟合效果不尽如人意:
1)类的形状不够灵活,拟合结果与实际相差较大,精度有限。
2)样本对于是否属于每一个簇是确定的,即只有是与否,应用中缺少鲁棒性。
2.高斯混合模型
基本思想:用多个高斯分布函数(正态分布)去近似任意形状的概率分布。将待聚类的数据点看成是分布的采样点,通过采样点利用类似极大似然估计的方法估计高斯分布的参数,求出参数(用EM算法求解)即得出了数据点对分类的隶属函数。

GMM 的概率密度函数:

本文对比了k-means聚类算法的局限性,并详细介绍了更灵活的高斯混合模型(GMM)及其工作原理。GMM能更好地处理复杂形状的数据分布。
最低0.47元/天 解锁文章
7万+

被折叠的 条评论
为什么被折叠?



