18、K-Means聚类算法：原理、实现与优化

spice

于 2025-08-10 09:47:43 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习与F#编程实战文章标签： K-Means聚类无监督学习数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/spice/article/details/150753568

机器学习与F#编程实战专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

K-Means聚类算法：原理、实现与优化

1. K-Means聚类基础

在数据分析中，当我们说“这个数据集有两个聚类”时，意味着数据观测值并非均匀分布，而是集中在两个区域。可以理解为数据集中大致有两种类型的观测值，这两个高密度区域分别包含这两种类型的观测值，且同一区域内的观测值彼此较为接近。

为了简化处理，我们引入“质心”的概念。聚类中的所有观测值可视为一个理想化基础观测值的微小变体，我们可以用一个典型代表来表示整个聚类，这些“虚构代表”就是质心。质心应处于聚类的中心位置，这样它与聚类内的所有观测值距离都不会太远，通常可以用聚类内所有观测值的平均值来确定质心。基于此，分类规则也很简单：要确定一个观测值属于哪个聚类，只需找到距离它最近的质心即可。

2. K-Means聚类算法核心

K-Means聚类算法的核心是从任意质心开始，逐步更新质心位置，直到它们达到稳定状态。具体步骤如下：
1. 初始化 ：假设我们知道数据集中应该有k个聚类，随机选择k个质心。
2. 分配观测值 ：对于数据集中的每个观测值，找到距离它最近的质心，并将其分配到该质心所在的聚类。
3. 更新质心 ：将每个聚类的质心移动到该聚类内所有观测值的平均位置。
4. 重复步骤2和3 ：不断重复分配观测值和更新质心的过程，直到质心的位置不再发生变化，即所有观测值的聚类分配不再改变。

以下是K-Means聚类算法的伪代码：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。