k均值聚类算法考试例题_一文读懂K-means聚类算法

最新推荐文章于 2025-06-18 16:59:01 发布

undertaler

最新推荐文章于 2025-06-18 16:59:01 发布

阅读量5.2k

点赞数 2

CC 4.0 BY-SA版权

文章标签： k均值聚类算法考试例题

本文链接：https://blog.youkuaiyun.com/weixin_34766991/article/details/112156384

本文详细介绍了K-means聚类算法，包括聚类的基本概念、K-means的工作原理、算法步骤以及如何确定初始中心点和K值。通过实例展示了K-means的迭代过程，探讨了算法的局限性，提出了选择合适的初始中心（如K-Means++）和确定K值的方法（如手肘法）。文章最后指出，对于非凸或异形分布的数据，K-means可能不适用，并预告了后续将讨论的高斯混合模型（GMM）。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、引言

什么是聚类？我们通常说，机器学习任务可以分为两类，一类是监督学习，一类是无监督学习。监督学习：训练集有明确标签，监督学习就是寻找问题（又称输入、特征、自变量）与标签（又称输出、目标、因变量）之间关系的学习方式。监督学习模型又可以分为两类，分类和回归。

分类模型：目标变量是离散的分类型变量；回归模型：目标变量是连续性数值型变量。无监督学习：只有数据，无标签，即训练集没有标注目标变量。常见的无监督学习算法有聚类，由计算机自己找出规律，把有相似属性的样本放在一组，每个小组也称为簇。

简单来说，聚类是指根据相似数据点的属性或特征将它们分组在一起。

例如，如果我们有一组人的收入和支出，我们可以将他们分为以下几类：

高收入，高消费
高收入，低消费
低收入，低消费
低收入，高消费

2、K-means聚类

聚类算法有很多，最流行的聚类算法之一是 k-means。让我们了解 k-means 算法是如何工作的，以及该算法可能达不到预期的情况。

K-means有一个很著名很清晰的解析，就是牧师-村民模型。

有四个牧师去郊区布道，一开始牧师们随意选了几个布道点，并且把这几个布道点的情况公告给了郊区所有的居民，于是每个居民到离自己家最近的布道点去听课。听课之后，大家觉得距离太远了，于是每个牧师统计了一下自己的课上所有的居民的地址，搬到了所有地址的中心地带，并且在海报上更新了自己的布道点的位置。牧师每一次移动不可能离所有人都更近，有的人发现A牧师移动以后自己还不如去B牧师处听课更近，于是每个居民又去了离自己最近的布道点……就这样，