27、使用K-means聚类算法寻找数据组

使用K-means聚类算法寻找数据组

1. K-means算法基础

K-means算法是一种常用的聚类算法。在算法运行过程中,当有数据点被重新分配时,就需要更新质心并更新聚类边界。当不再有数据点被重新分配时,算法停止,此时聚类分配结果即为最终结果。

最终的聚类结果可以通过两种方式报告:
- 简单地为每个样本报告其所属的聚类标签,如A、B或C。
- 报告最终更新后聚类质心的坐标。

2. 选择合适的聚类数量

K-means算法对随机选择的聚类中心很敏感,同时也对聚类数量很敏感。选择合适的聚类数量需要进行微妙的平衡:
- 设置k值过大 :会提高聚类的同质性,但有过拟合数据的风险。
- 设置k值过小 :会导致聚类的异质性增加。

以下是几种选择聚类数量的方法:
| 方法 | 描述 | 优缺点 |
| ---- | ---- | ---- |
| 先验知识 | 根据对数据真实分组的先验信念来选择k值。例如,聚类电影时,可将k设置为奥斯卡奖考虑的电影类型数量;在数据科学会议座位安排问题中,k可反映受邀的学术研究领域数量。 | 优点:若有准确先验知识,能快速确定合适的k值;缺点:并非所有情况都有先验知识。 |
| 业务需求 | 根据业务需求或分析动机来确定k值。例如,会议室的桌子数量决定了从数据科学参会者名单中创建的分组数量;营销部门只有资源创建三个不同的广告活动时,可将k设置为3。 | 优点:紧密结合业务实际;缺点:可能缺乏数据驱动的科学性。 |
| 经验法则 | 当没有先验知识时,可将

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值