K-Means算法原理理解以及上手实例

最新推荐文章于 2023-08-23 11:18:55 发布

原创

最新推荐文章于 2023-08-23 11:18:55 发布 · 3.8k 阅读

CC 4.0 BY-SA版权

文章标签：

本文详细介绍K-Means算法原理及其实现过程，包括质心计算、距离度量等核心步骤，并通过实例演示如何使用Python进行聚类分析及轮廓系数评估。

本文将大致梳理K-Means算法的流程，并且使用python3实现kmeans算法对简单欧式空间数据集的聚类问题，以及结果评价算法—轮廓系数的实现，最后将提供本次实例的详细注释代码

1.算法原理：

K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

选择K个不相同的点作为初始质心  
repeat  
    将每个点指派到最近的质心，形成K个簇  
    重新计算每个簇的质心  
until 簇不发生变化或达到最大迭代次数

对于分类后的产生的k个簇，分别计算到簇内其他点距离均值最小的点作为质心（对于拥有坐标的簇可以计算每个簇坐标的均值作为质心）

将对象点分到距离聚类中心最近的那个簇中需要最近邻的度量策略，在欧式空间中采用的是欧式距离，在处理文档中采用的是余弦相似度函数，有时候也采用曼哈顿距离作为度量，不同的情况实用的度量公式是不同的。
欧式距离
 余弦相似度
 曼哈顿距离

轮廓系数（Silhouette Coefficient）结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的效果。该值处于-1~1之间，值越大，表示聚类效果越好。具体计算方法如下：

从上面的公式，不难发现若s(i)小于0，说明i与其簇内元素的平均距离小于最近的其他簇，表示聚类效果不好。如果a(i)趋于0，或者b(i)足够大，即a(i)远远小于b(i)，那么s(i)趋近与1，说明聚类效果比较好。

下面将通过从准备数据到完成聚类并寻找最佳参数等一系列完整的步骤来讲解第一个算法实现的示例，最后我将提供此次示例的完整项目代码以及基于上一篇博客的VSM模型的计算结果来进行文档的聚类项目代码，本次示例使用语言为python3

作为算法实现的测试数据，最好能够了解数据的分布情况，以便结合代码的运行结果来检测代码实现的正确与否。因此，我准备了一组基于欧式空间的坐标集数据，数据大致分布如下：