使用k-means算法进行数据分组聚类
1. k-means聚类算法概述
k-means算法可能是最常用的聚类方法,属于基于划分的聚类方法。经过数十年的研究,它是许多更复杂聚类技术的基础。理解其简单原理,就能掌握当今几乎所有聚类算法的知识。
尽管聚类方法自k-means提出后不断发展,但这并不意味着k-means已过时,实际上它可能比以往更受欢迎。以下是k-means仍被广泛使用的原因:
| 优点 | 缺点 |
| — | — |
| - 使用简单原理,可用非统计术语解释
- 高度灵活,通过简单调整可解决许多缺点
- 在许多实际用例中表现良好 | - 不如现代聚类算法复杂
- 由于使用随机元素,不能保证找到最优聚类集
- 需要合理猜测数据中自然存在的聚类数量
- 不适用于非球形聚类或密度差异大的聚类 |
k-means算法将n个示例分配到k个聚类中,k是预先确定的数字。目标是最小化每个聚类内示例特征值的差异,最大化聚类间的差异。
由于k和n通常较大,无法计算所有可能组合的最优聚类。因此,算法使用启发式过程寻找局部最优解。简单来说,它从初始聚类分配开始,微调分配以查看是否改善聚类的同质性。
算法主要包括两个阶段:
1. 将示例分配到初始的k个聚类中。
2. 根据当前属于聚类的示例调整聚类边界,更新分配。更新和分配过程会多次进行,直到更改不再改善聚类拟合度,此时过程停止,聚类确定。
2. 使用距离分配和更新聚类
与k-NN一样,k-means将特征值视为多维特征空间中的坐标。对于会议数据,只有两个特征,
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



