K-Means++、K-Means||算法整理

最新推荐文章于 2025-10-26 16:39:14 发布

原创最新推荐文章于 2025-10-26 16:39:14 发布 · 4.7k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#k-means延伸算法熟悉

机器学习专栏收录该内容

44 篇文章

订阅专栏

本文介绍了K-Means的延伸算法。K-Means++解决了K-Means对初始簇心敏感问题，但在扩展上有性能问题，因其顺序执行特性无法并行扩展。K-Means||则解决了K-Means++的缺点，改变取样规则，每次取K个样本，重复操作多次后聚类出K个点作为初始聚簇中心点。

K-Means++思想：

解决K-Means算法对初始簇心比较敏感的问题，K-Means++算法和K-Means算法的区别主要在于初始的K个中心点的选择方面，K-Means算法使用随机给定的方式。

K-Means++算法采用下列步骤给定K个初始质点：

1、从数据集中任选一个节点作为第一个聚类中心
2、对数据集中的每个点x，计算x到所有已有聚类中心点的距离和D(X)，基于D(X)采用线性概率选择出下一个聚类中心点(距离较远的一个点成为新增的一个聚类中心点)
3、重复步骤2直到找到k个聚类中心点

缺点：由于聚类中心点选择过程中的内在有序性，在扩展方面存在着性能方面的问题(第k个聚类中心点的选择依赖前k-1个聚类中心点的值) k-means++ 最主要的缺点在于其内在的顺序执行特性，得到 k 个聚类中心必须遍历数据集 k 次，并且当前聚类中心的计算依赖于前面得到的所有聚类中心，这使得算法无法并行扩展，极大地限制了算法在大规模数据集上的应用。

K-Means||思想：

解决K-Means++算法缺点而产生的一种算法；主要思路是改变每次遍历时候的取样规则，并非按照K-Means++算法每次遍历只获取一个样本，而是每次获取K个样本，重复该取样操作O(logn)次(n是样本的个数)，然后再将这些抽样出来的样本聚类出K个点，最后使用这K个点作为K-Means算法的初始聚簇中心点。实践证明：一般5次重复采用就可以保证一个比较好的聚簇中心点。