关于K-means算法的个人解读

最新推荐文章于 2025-10-13 22:45:19 发布

原创

最新推荐文章于 2025-10-13 22:45:19 发布 · 842 阅读

3 ·

CC 4.0 BY-SA版权

本文介绍了K-means算法，一种基于距离的聚类算法，适用于数据的球状分布。文章详细阐述了算法思路，包括初始化、迭代更新直至中心点稳定，以及常用的欧几里得距离公式。此外，还提供了简单的C语言代码实现。

关于K-means算法的个人解读

一、简介

K-means算法是很典型的基于距离的聚类算法，何谓聚类，大家都明白的道理时物以类聚，人以群分；相同属性相同合适性格的人会被人们归为一类，他们甚至相互吸引，其中有着某些特定的特点来对某一类人群加以区分，数据和物也是一样。K-means算法的用处就是用来找到某批数据中的不同类别，并对不同的数据加以区分。该算法是基于数据之间的抽象距离，将其具现化到一维，二维，甚至三维点云中的距离来实现聚类。该算法采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。K-means算法简单，高效，当数据是密集且按一定区域分布时，聚类效果好。
①K-means算法的优点
算法快速简单，对于大数据的聚类规模伸缩性强，较为实用于数据为球状分布的数据集合，且随着距离计算方法的优化，聚类效果会有所优化。
②K-means算法的缺点
该算法虽然简单高效但其也存在着一些条件限制,比较突出的特点是K 值的选定是非常难以估计的，且最初的随机“伪中心点”的选择如果初始在不好的位置，聚类效果会有所影响，且随着数据的愈渐庞大，算法时间开销过大。

聚类效果展示图如下：（来自百度文库）聚类效果展示图（来自百度文库

二、算法思路

K-means算法的特点和局限是必须要输入预先规定的分为K类聚簇，即设K个初始的“伪中心点”，而后根据不断的迭代更新，直到所有的中心点都不再变化成为“真中心点”。
具体算法步骤如下：
1 .首先输入 k 的值，即我们自己制定需要通过聚类获取到K个小组；
2 .从随机生成的数据中随机选取 k 个数据点作为初始的“伪中心点”；
3 .其中对于K个中心点附近的其他的数据，通过计算每个点与每个“伪中心点”的距离，来进行比较，离

最低0.47元/天解锁文章