32、使用k-means算法进行数据分组聚类

使用k-means算法进行数据分组聚类

1. k-means聚类算法概述

k-means算法可能是最常用的聚类方法,属于基于划分的聚类方法。经过数十年的研究,它是许多更复杂聚类技术的基础。理解其简单原理,就能掌握当今几乎所有聚类算法的知识。

尽管聚类方法自k-means提出后不断发展,但这并不意味着k-means已过时,实际上它可能比以往更受欢迎。以下是k-means仍被广泛使用的原因:
| 优点 | 缺点 |
| — | — |
| - 使用简单原理,可用非统计术语解释
- 高度灵活,通过简单调整可解决许多缺点
- 在许多实际用例中表现良好 | - 不如现代聚类算法复杂
- 由于使用随机元素,不能保证找到最优聚类集
- 需要合理猜测数据中自然存在的聚类数量
- 不适用于非球形聚类或密度差异大的聚类 |

k-means算法将n个示例分配到k个聚类中,k是预先确定的数字。目标是最小化每个聚类内示例特征值的差异,最大化聚类间的差异。

由于k和n通常较大,无法计算所有可能组合的最优聚类。因此,算法使用启发式过程寻找局部最优解。简单来说,它从初始聚类分配开始,微调分配以查看是否改善聚类的同质性。

算法主要包括两个阶段:
1. 将示例分配到初始的k个聚类中。
2. 根据当前属于聚类的示例调整聚类边界,更新分配。更新和分配过程会多次进行,直到更改不再改善聚类拟合度,此时过程停止,聚类确定。

2. 使用距离分配和更新聚类

与k-NN一样,k-means将特征值视为多维特征空间中的坐标。对于会议数据,只有两个特征,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值