32、使用k-means算法进行数据分组聚类

assembly8low

于 2025-09-01 10:45:19 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏： R语言机器学习实战文章标签： k-means聚类数据分组市场细分

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/assembly8low/article/details/152445892

R语言机器学习实战专栏收录该内容

64 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

使用k-means算法进行数据分组聚类

1. k-means聚类算法概述

k-means算法可能是最常用的聚类方法，属于基于划分的聚类方法。经过数十年的研究，它是许多更复杂聚类技术的基础。理解其简单原理，就能掌握当今几乎所有聚类算法的知识。

尽管聚类方法自k-means提出后不断发展，但这并不意味着k-means已过时，实际上它可能比以往更受欢迎。以下是k-means仍被广泛使用的原因：
| 优点 | 缺点 |
| — | — |
| - 使用简单原理，可用非统计术语解释
- 高度灵活，通过简单调整可解决许多缺点
- 在许多实际用例中表现良好 | - 不如现代聚类算法复杂
- 由于使用随机元素，不能保证找到最优聚类集
- 需要合理猜测数据中自然存在的聚类数量
- 不适用于非球形聚类或密度差异大的聚类 |

k-means算法将n个示例分配到k个聚类中，k是预先确定的数字。目标是最小化每个聚类内示例特征值的差异，最大化聚类间的差异。

由于k和n通常较大，无法计算所有可能组合的最优聚类。因此，算法使用启发式过程寻找局部最优解。简单来说，它从初始聚类分配开始，微调分配以查看是否改善聚类的同质性。

算法主要包括两个阶段：
1. 将示例分配到初始的k个聚类中。
2. 根据当前属于聚类的示例调整聚类边界，更新分配。更新和分配过程会多次进行，直到更改不再改善聚类拟合度，此时过程停止，聚类确定。

2. 使用距离分配和更新聚类

与k-NN一样，k-means将特征值视为多维特征空间中的坐标。对于会议数据，只有两个特征，

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。