关于K-means算法的个人解读

本文介绍了K-means算法,一种基于距离的聚类算法,适用于数据的球状分布。文章详细阐述了算法思路,包括初始化、迭代更新直至中心点稳定,以及常用的欧几里得距离公式。此外,还提供了简单的C语言代码实现。

关于K-means算法的个人解读

一、简介

K-means算法是很典型的基于距离的聚类算法,何谓聚类,大家都明白的道理时物以类聚,人以群分;相同属性相同合适性格的人会被人们归为一类,他们甚至相互吸引,其中有着某些特定的特点来对某一类人群加以区分,数据和物也是一样。K-means算法的用处就是用来找到某批数据中的不同类别,并对不同的数据加以区分。该算法是基于数据之间的抽象距离,将其具现化到一维,二维,甚至三维点云中的距离来实现聚类。该算法采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。K-means算法简单,高效,当数据是密集且按一定区域分布时,聚类效果好。
①K-means算法的优点
算法快速简单,对于大数据的聚类规模伸缩性强,较为实用于数据为球状分布的数据集合,且随着距离计算方法的优化,聚类效果会有所优化。
②K-means算法的缺点
该算法虽然简单高效但其也存在着一些条件限制,比较突出的特点是K 值的选定是非常难以估计的,且最初的随机“伪中心点”的选择如果初始在不好的位置,聚类效果会有所影响,且随着数据的愈渐庞大,算法时间开销过大。

聚类效果展示图如下:(来自百度文库)聚类效果展示图(来自百度文库

二、算法思路

K-means算法的特点和局限是必须要输入预先规定的分为K类聚簇,即设K个初始的“伪中心点”,而后根据不断的迭代更新,直到所有的中心点都不再变化成为“真中心点”。
具体算法步骤如下:
1 .首先输入 k 的值,即我们自己制定需要通过聚类获取到K个小组;
2 .从随机生成的数据中随机选取 k 个数据点作为初始的“伪中心点”;
3 .其中对于K个中心点附近的其他的数据,通过计算每个点与每个“伪中心点”的距离,来进行比较,离

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值