本篇将介绍整理各种聚类算法,包括k-means,GMM(Guassian Mixture Models, 高斯混合),EM(Expectation Maximization,期望最大法),Spectral Clustering(谱聚类),Mean Shift(均值偏移)和DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
0. 先验的基础知识
文章: 聚类算法的先验基础知识
1. K-Means
K-means算法是一种常用的聚类算法,用于将数据集中的样本分成 K 个不同的类别或簇。
-
原理介绍:
- 初始化: 随机选择 K 个初始聚类中心。
- 分配样本: 将每个样本分配到距离最近的聚类中心所在的簇。
- 更新中心: 对每个簇,计算其所有样本的均值,将该均值作为新的聚类中心。
- 重复步骤2和步骤3,直到收敛: 当聚类中心不再变化或变化很小时,算法收敛,得到最终的聚类结果。
-
优缺点