Day17 常见的聚类算法

常见聚类算法介绍与分析

@浙大疏锦行

知识点
  1. 聚类的指标
  2. 聚类常见算法:kmeans聚类、dbscan聚类、层次聚类
  3. 三种算法对应的流程

聚类的指标:

  1. 轮廓系数:越接近1越好,代表样本与所属簇内其他样本很近,但与其他簇很远。
  2. CH指数(簇间分散度与簇内分散度之比):值越大越好,用于评估簇的分离度和紧凑度,值越大表示簇间分离度越高,簇内紧凑度越高,聚类效果越好。
  3. DB指数(类内距离与类间距离的比值):越接近0越好,

KMeans 聚类
        基于距离的聚类算法,需要预先指定聚类个数,即 k。其核心步骤如下:

 
  1. 随机选择 k 个样本点作为初始质心(簇中心)。
  2. 计算每个样本点到各个质心的距离,将样本点分配到距离最近的质心所在的簇。
  3. 更新每个簇的质心为该簇内所有样本点的均值。
  4. 重复步骤 2 和 3,直到质心不再变化或达到最大迭代次数为止。在迭代过程中,质心的变化会逐渐减小,当变化量小于某个预设的阈值时,也可以停止迭代,以提高效率。
 

确定簇数的方法:肘部法
肘部法(Elbow Method)是一种常用的确定 k 值的方法。
原理:通过计算不同 k 值下的簇内平方和(Within-Cluster Sum of Squares, WCSS),绘制 k 与 WCSS 的关系图。其中,WCSS 是每个样本点与其所属簇质心的欧式距离的平方和,它反映了簇内样本的紧密程度,WCSS 越小,说明簇内样本越集中。
选择标准:在图中找到 “肘部” 点,即 WCSS 下降速率明显减缓的 k 值,通常认为是最佳簇数。这是因为增加 k 值带来的收益(WCSS 减少)在该点后变得不显著。不过,肘部法有时可能不够明确,需要结合实际业务场景和数据特点进行判断。

 

KMeans 算法的优缺点

优点

  • 简单高效:算法实现简单,计算速度快,时间复杂度较低,适合处理大规模数据集,在数据量较大时依然能保持较好的性能。
  • 适用性强:对球形或紧凑的簇效果较好,适用于特征空间中簇分布较为均匀的数据,在很多实际应用场景中都能得到不错的聚类结果。
  • 易于解释:聚类结果直观,簇中心具有明确的物理意义,能够帮助人们理解数据的分布特征。

缺点

  • 需预先指定 k 值:对簇数量 k 的选择敏感,不合适的 k 会导致聚类效果较差,而在实际应用中,往往很难准
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值