无监督学习-聚类系列之常见模型

最新推荐文章于 2025-06-25 21:15:15 发布

济舒小柏

最新推荐文章于 2025-06-25 21:15:15 发布

阅读量1.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Machine Learning

本文链接：https://blog.youkuaiyun.com/m0_38088359/article/details/83034751

本文总结了常见的聚类方法，包括k-均值、层次聚类、DBSCAN、基于模型聚类、图论聚类和网格聚类。讨论了k-均值的k-means++改进、层次聚类的凝聚与分裂方式、DBSCAN的优势与不足，并介绍了如何通过轮廓系数评估聚类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚类是一个大的家族，常见的分类有6种，而各种聚类又有许多变型，这里总结下常见聚类及其原理。在此只是为了方便自己记忆而写的总结，当中有借鉴一些前辈的笔记，感激前辈。
1、划分聚类：
k—means算法步骤：
（1）提前假设k个簇，对于实际问题会有一些启发式的选取方法，大多数是随机选取。但由于初值会影响结果所以往往多次选择初值并去结果最好的那一次。
（2）将每个数据点归类到离它最近的哪个中心点所带表的簇。这里注意距离的度量也即相似度，一般高维稠密用欧氏距离，但如果是高维稀疏一般用余弦距离。
（3）分别对每个簇中的数据点求平均值即为计算出cluster新中心点。若中心点不变或者小于某个可接受范围则停止，否则继续重复第（2）步一直迭代。

k-means损失函数为：所有样本离所在簇中心的距离，认为每个簇
内部越紧密，聚类效果越好。

*****k均值的优缺点及相应的改进：
优点：1，简单，易于理解和实现；2，时间复杂度低
缺点：
1）kmeans要手工输入类数目，对初始值的设置很敏感；所以有了k-means++、intelligentk-means、genetick-means；
2）k-means对噪声和离群值非常敏感，所以有了k-medoids和k-medians；
3）k-means只用于numerical类型数据，不适用于categorical类型数据，所以k-modes；
4）k-means不能解决非凸（non-convex）数据，所以有了kernelk-means。
5）k-means主要发现圆形或者球形簇，不能识别非球形的簇。
注意：k-means的收敛条件为迭代次数/簇中心变化率/MSE/MAE

k-means++算法步骤:
(1)从输入的数据点集合中随机选择一个点作为第一个聚类中心;
(2)计算数据集中每一个点到与其最近聚类中心(指已选出的聚类中心)的距离D(xi);
(3)选择一个新数据点作为聚类中心，原则：D(xi)较大的点，被选为聚类中心概率较大。原理如下，先从已有的聚类中心中随机挑选一个点作为种子点，对每个数据点都计算其与最近的一个种子点的距离D(xi)并保存在一个