《机器学习实战》学习总结(五)K-means算法原理

本文详细介绍了K-means聚类算法的基本原理及其实现过程,包括如何初始化质心、分配数据点、更新质心等关键步骤,并通过实例演示了算法的具体运作流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

K-means分类算法属于无监督类学习算法。

该分类算法不需要训练算法,直接对待分类点进行决策分类。

算法原理

算法实现过程如下所示:

1、随机创建k个点作为起始质心(也不是完全随机的,创建的质心必须在整个数据集边界内部,即每个质心的每个每一维的取值必须在数据该维度的最大和最小值之间)

2、将数据集中每个数据点分配到对应的质心

    计算数据集中每个数据点与k个质心的距离,将数据点分配到距离其最近的质心

3、对每一个簇,计算簇中所有点的均值并将均值作为质心

4、重复步骤2和步骤3,直到所有点的分配结果都不在改变

举例说明


(a)绿色的点表示原始的数据集

(b)在原始数据集边界范围内随机生成两个质心(K=2

(c)比较整个数据集中每个数据点与两个质心的距离,将其划分到距离较近的簇中(如图中将每个点修改为红色或蓝色)

(d)计算每个簇的均值,找到新的质心(新的红色和蓝色的X,注意这里寻找质心的计算过程尽在上次分好的每个簇内进行)

(e)重新比较整个数据集中每个数据点与新的质心的距离,并重新划分

(f)计算新生成的每个簇的均值,作为质心。

重新计算整个数据集中每个数据点与新的质心的距离,当所有数据点的分类结果都不再变化时,停止迭代

--------------

总结:通过上述过程可知,实际上是先划分好簇,然后才得到最终的质心的

关于计算数据点与质心的距离有不同的方法,得到的分类效果也可能不同,常见的有欧式距离、SSE(误差平方和)



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汀桦坞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值