聚类分析(cluster analysis)

这篇博客介绍了聚类分析的基本概念,包括聚类与分类的区别,强调了聚类在处理无监督数据时的作用。重点讲解了K-means算法的步骤、优缺点,并提出了二分K-means作为改进算法,通过最小化SSE来提高精度。同时,提供了K=3时的聚类中心坐标和测试数据下载链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

欢迎访问新blog页面:K-Means-Simple understanding and code implementation

一、聚类定义

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析区别于分类分析(classification analysis) ,后者是有监督的学习。

  • 依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。

  • 各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。

  • 各指标之间具有一定的相关关系。

  • 变量类型:定类变量、定量(离散和连续)变量

二、划分聚类方法-Kmeans: 

对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。

  • 步骤1:取得k个初始中心点
  • 步骤2:利用中心点划分样本集为k个簇
  • 步骤3:根据已经被分类的数据分别重新计算各自的中心点,如果中心点发生变化回到步骤2,未发生变化转到步骤4
  • 步骤4:收敛

缺点:
初始值敏感、采用迭代方法,得到的结果只是局部最优、K值的选取不好把握、对于不是凸的数据集比较难收敛
如何衡量Kmeans 算法的精确度?
SSE(Sum of Square Error) 误差平方和, SSE越小,精确度越高。

三、改进算法-二分Kmeans

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值