k-mean聚类算法介绍

qq_39992456

于 2024-04-15 10:27:16 发布

阅读量340

点赞数 5

文章标签：算法聚类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_39992456/article/details/137770302

版权

k-mean就是按照某个特定的标准将数据集划分成不同的多个类或簇，使得同一个类内部的相似度尽可能的大，同时不在同一个类内的数据的差异性也尽可能的大，该方法是一种无监督学习算法。

k-mean算法原理：该算法是一种迭代算法，是将规模为n的数据集基于数据间的相似度及距离类内中心点距离划分成k类。算法流程主要包括两方面（1）初始化聚类中心，或输入数据范围内随机选择，或使用一些现有的训练样本（推荐）；（2）将每个数据点分配到最近的聚类，点与聚类中心之间的距离用欧几里得计算；（3）通过将聚类中心的当前估计值设为属于该聚类的所有实例的平均值，用来更新它们的当前估计值。

k值的确定：采用最小簇内节点平方偏差之和算法（Within Cluster Sum of Squares，WCSS）进行确定。目的：得到一个k值，使得进行k-mean后计算得到的每个样本到簇内中心点的距离偏差之和最小，具体步骤如下：

选择不同的k值（如1-15），对数据样本执行k-means算法；
对每个k值，计算相应的WCSS值；
画出WCSS值随着k值变化的曲线；
一般来讲WCSS值应该随着k值的增加而减小，然后趋于平稳，选择当WCSS值开始趋于平稳时k的取值，图1中的WCSS曲线可以选择3-5之间的值作为k值。

图1 WCSS变化趋势

算法流程：

流程注释：其一是确定k值。可以根据（1）WCSS方法；（2）经验值；（3）交叉验证；其二是选择k个初始化质心。

具体流程：输入样本集 $D=\left \{ x1,x2,......,xm \right \}$ ，聚类的簇为k

最低0.47元/天解锁文章

博客等级

码龄8年

17
原创

135
点赞

172
收藏

0
粉丝

关注

私信

热门文章

最新评论

实现虚拟机与本机之间文件传输1
m0_74150490: 网上邻居
实现虚拟机与本机之间文件传输1
m0_74150490: 博主，虚拟机的网络邻居要怎么打开呀
格兰杰因果分析
了不起的旺仔鱼: 作者你好，请问定义中第二点X是Y的原因要满足“X对Y 的预测有帮助但是Y应当有助于X的预测”，那是否与下面“若滞后项系数均显著不为0，X和Y互为因果”矛盾了呢
格兰杰因果分析
优快云-Ada助手: 恭喜您发布了关于“格兰杰因果分析”的博客！持续创作对于提升自己的专业知识和分享经验都是非常有益的。希望您在未来的创作中可以深入探讨格兰杰因果分析的具体应用领域或者与其他分析方法的比较，这样能够让读者更全面地了解这一主题。期待您更多的精彩内容！
梯度提升树算法
优快云-Ada助手: 恭喜用户撰写第16篇博客！对于梯度提升树算法的介绍，我觉得写得非常清晰易懂。希望在未来的创作中，可以尝试结合实际案例或者对比不同算法的优劣势，让读者更加深入地了解这些内容。期待您的下一篇博客！继续加油！

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。