27、使用K-means聚类算法寻找数据组

kotlin6android

于 2025-11-02 11:39:23 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习与R实战精要文章标签： K-means聚类市场细分青少年群体分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/kotlin6android/article/details/154666046

机器学习与R实战精要专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

使用K-means聚类算法寻找数据组

1. K-means算法基础

K-means算法是一种常用的聚类算法。在算法运行过程中，当有数据点被重新分配时，就需要更新质心并更新聚类边界。当不再有数据点被重新分配时，算法停止，此时聚类分配结果即为最终结果。

最终的聚类结果可以通过两种方式报告：
- 简单地为每个样本报告其所属的聚类标签，如A、B或C。
- 报告最终更新后聚类质心的坐标。

2. 选择合适的聚类数量

K-means算法对随机选择的聚类中心很敏感，同时也对聚类数量很敏感。选择合适的聚类数量需要进行微妙的平衡：
- 设置k值过大 ：会提高聚类的同质性，但有过拟合数据的风险。
- 设置k值过小 ：会导致聚类的异质性增加。

以下是几种选择聚类数量的方法：
| 方法 | 描述 | 优缺点 |
| ---- | ---- | ---- |
| 先验知识 | 根据对数据真实分组的先验信念来选择k值。例如，聚类电影时，可将k设置为奥斯卡奖考虑的电影类型数量；在数据科学会议座位安排问题中，k可反映受邀的学术研究领域数量。 | 优点：若有准确先验知识，能快速确定合适的k值；缺点：并非所有情况都有先验知识。 |
| 业务需求 | 根据业务需求或分析动机来确定k值。例如，会议室的桌子数量决定了从数据科学参会者名单中创建的分组数量；营销部门只有资源创建三个不同的广告活动时，可将k设置为3。 | 优点：紧密结合业务实际；缺点：可能缺乏数据驱动的科学性。 |
| 经验法则 | 当没有先验知识时，可将

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。