k均值聚类算法考试例题_一文读懂K-means聚类算法

本文详细介绍了K-means聚类算法,包括聚类的基本概念、K-means的工作原理、算法步骤以及如何确定初始中心点和K值。通过实例展示了K-means的迭代过程,探讨了算法的局限性,提出了选择合适的初始中心(如K-Means++)和确定K值的方法(如手肘法)。文章最后指出,对于非凸或异形分布的数据,K-means可能不适用,并预告了后续将讨论的高斯混合模型(GMM)。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

cedf47dfa32306870fa4ee906ee37880.png

1、引言

什么是聚类?我们通常说,机器学习任务可以分为两类,一类是监督学习,一类是无监督学习。监督学习:训练集有明确标签,监督学习就是寻找问题(又称输入、特征、自变量)与标签(又称输出、目标、因变量)之间关系的学习方式。监督学习模型又可以分为两类,分类和回归。

分类模型:目标变量是离散的分类型变量;回归模型:目标变量是连续性数值型变量。无监督学习:只有数据,无标签,即训练集没有标注目标变量。常见的无监督学习算法有聚类,由计算机自己找出规律,把有相似属性的样本放在一组,每个小组也称为簇。

简单来说,聚类是指根据相似数据点的属性或特征将它们分组在一起。

例如,如果我们有一组人的收入和支出,我们可以将他们分为以下几类:

  • 高收入,高消费
  • 高收入,低消费
  • 低收入,低消费
  • 低收入,高消费

2、K-means聚类

聚类算法有很多,最流行的聚类算法之一是 k-means。让我们了解 k-means 算法是如何工作的,以及该算法可能达不到预期的情况。

K-means有一个很著名很清晰的解析,就是牧师-村民模型。

有四个牧师去郊区布道,一开始牧师们随意选了几个布道点,并且把这几个布道点的情况公告给了郊区所有的居民,于是每个居民到离自己家最近的布道点去听课。听课之后,大家觉得距离太远了,于是每个牧师统计了一下自己的课上所有的居民的地址,搬到了所有地址的中心地带,并且在海报上更新了自己的布道点的位置。牧师每一次移动不可能离所有人都更近,有的人发现A牧师移动以后自己还不如去B牧师处听课更近,于是每个居民又去了离自己最近的布道点……就这样,

好的,我会尽力回答您的问题。以下是一道k均值聚类算法的计算题例子: 给出以下5个数据点的二维坐标: (2, 10), (2, 5), (8, 4), (5, 8), (7, 5) 使用k均值聚类算法将它们分成两类。 首先,我们需要确定聚类的数量k。在本例中,我们选择k=2。 接下来,我们需要初始化两个聚类中心,可以随机选择或从数据点中选取。在本例中,我们选择(2, 5)和(5, 8)作为初始聚类中心。 然后,我们计算每个数据点到这两个聚类中心的距离,并将它们分配到距离更近的聚类中心所代表的聚类中。具体来说,我们计算每个数据点到聚类中心的欧几里得距离,并将其分配到距离更近的聚类中心所代表的聚类中。在本例中,我们得到以下聚类分配: (2, 10) -> 第二个聚类 (2, 5) -> 第一个聚类 (8, 4) -> 第一个聚类 (5, 8) -> 第二个聚类 (7, 5) -> 第二个聚类 接下来,我们重新计算每个聚类的中心,即将该聚类中所有数据点的坐标求平均值。在本例中,我们得到以下新的聚类中心: 第一个聚类的中心:(5, 6.5) 第二个聚类的中心:(4.67, 7.67) 我们重复以上步骤,直到聚类中心不再变化或达到预定的迭代次数。在本例中,我们可以继续重复以上步骤,直到聚类中心不再变化为止。 最终,我们得到两个聚类: 第一个聚类:(2, 5), (8, 4) 第二个聚类:(2, 10), (5, 8), (7, 5) 这就是使用k均值聚类算法将这5个数据点分成两类的计算过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值