K-Means聚类算法详解

最新推荐文章于 2025-07-06 15:29:28 发布

古韦

最新推荐文章于 2025-07-06 15:29:28 发布

阅读量2.8w

点赞数 5

CC 4.0 BY-SA版权

分类专栏： DataMining 文章标签： K-Means算法 R语言 java 实现

本文链接：https://blog.youkuaiyun.com/hwwn2009/article/details/38311389

本文详细介绍了K-Means聚类算法的基本思想、步骤和常见邻近度函数，强调了算法的局限性，包括对初始质心和k值选择的敏感性，以及对非球形簇和离群值的处理。通过Java和R语言的实现示例，展示了算法的应用，并探讨了解决算法局限性的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

K-Means算法的基本思想是初始随机给定K个簇中心，按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心(这个点可以不是样本点)，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值。

K-Means聚类算法主要分为三个步骤：
(1)第一步是为待聚类的点寻找聚类中心
(2)第二步是计算每个点到聚类中心的距离，将每个点聚类到离该点最近的聚类中去
(3)第三步是计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心
反复执行(2)、(3)，直到聚类中心不再进行大范围移动或者聚类次数达到要求为止

下图展示了对n个样本点进行K-means聚类的效果，这里k取2：
(a)未聚类的初始点集
(b)随机选取两个点作为聚类中心
(c)计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去
(d)计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心
(e)重复(c),计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去
(f)重复(d),计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心

k均值常用的邻近度，质心和目标函数的选择：
邻近度函数：曼哈顿距离。质心：中位数。目标函数：最小化对象到其簇质心的距离和
邻近度函数：平方欧几里德距离。质心：均值。目标函数：最小化对象到其簇质心的距离的平方和
邻近度函数：余弦。质心：均值。最大化对象与其质心的余弦相似度和
邻近度函数：Bregman 散度。质心：均值。目标函数：最小化对象到其簇质心的Bregman散度和