浅谈K-means聚类算法

最新推荐文章于 2025-10-26 16:39:14 发布

原创

最新推荐文章于 2025-10-26 16:39:14 发布 · 2.3k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#算法

K-means算法起源于1967年，是一种通过计算数据点与质心距离进行聚类的方法。该算法包括选择K值，随机初始化质心，计算与质心距离并重新分配数据点等步骤。K-means在文档分类、物品传输优化、犯罪地点识别等领域有广泛应用。例如，用于客户分类，可以帮助公司根据客户行为细分市场；在保险欺诈检测中，能辅助识别潜在欺诈行为。

K-means算法的起源

1967年，James MacQueen在他的论文《用于多变量观测分类和分析的一些方法》中首次提出 “K-means”这一术语。1957年，贝尔实验室也将标准算法用于脉冲编码调制技术。1965年，E.W. Forgy发表了本质上相同的算法——Lloyd-Forgy算法，所以这一算法有时也被称为Lloyd-Forgy算法。更高效的版本则被Hartigan and Wong提出。

K-means算法的原理

K-Means聚类算法是聚类算法之一，其中K表示类别的数量，也就是说，我们想要将数据分成几个类别，Means表示均值。K值决定了初始质心（通常是随机选择的中心）的数量。K值是几，必须有几个质心。简而言之，K-Means聚类算法是一种通过均值聚类数据点的算法。

K-means算法的过程

1、首先输入K的值，将数据集分为K个类别。
2、从这组数据中随机选择K个数据点作为初始大哥（初始质心），其它数据点都作为小弟。
3、对数据集中每一个小弟，计算与每一个大哥的距离，离哪个大哥距离最近，就分配给哪个大哥。
4、每一个大哥手下都聚集了一帮小弟，这时候召开黑帮会议，推选出新的大哥（新的质心）。
5、如果新大哥和老大哥之间的距离很小或为0，说明新任大哥靠谱，选举结束（可以认为我们进行的聚类已经达到期望的结果，算法终止）。
6、如果新大哥和老大哥之间的距离很大，需要重新选举新大哥，分配小弟（重复3~5的步骤）。