简述-关于Kmeans轮廓系数随着聚类个数的增加后减少的问题

最新推荐文章于 2024-04-05 15:49:24 发布

原创最新推荐文章于 2024-04-05 15:49:24 发布 · 2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#聚类 #kmeans #机器学习

在Kmeans聚类中，通常使用手肘法和轮廓系数来确定最佳簇类数量。轮廓系数初期可能因高分离度而增大，但随着簇类增加，当簇间距离稳定后，系数会下降。‘过山车’现象可能是数据特性和算法初始化导致的。为找到更准确的最佳聚类数，可以尝试调整Kmeans的种子数以改变簇中心的初始位置。

当我们在做Kmeans聚类的准备工作时，通常会用到手肘法（elbow method）或者轮廓系数（silhouette score）去找到最佳簇类个数。

对于轮廓系数寻找法，理论上来说，轮廓系数会随着聚类个数的增加而增加，再而减少，直到我们找到最大的轮廓系数对应的簇类个数。如下图。
在这里插入图片描述

但实际在某些情况下，会出先减少后增加再减少的“过山车”or“凸点”情况，这其中是由于数据的特性和聚类算法的性质所导致的。
在这里插入图片描述
参考轮廓系数的公式
$S(i)=\frac{b_i-a_i}{max(a_i,b_i)}$

$a_i$ ：即样本点i到所属簇类点的平均距离，表示为凝聚度
$b_i$ ：即样本点i到非所属簇类点的平均距离，表示为分离度

当出现轮廓系数在初始阶段比较大情况时，有可能此时 $b_i$ 远远大于 $a_i$ ，分离度较高，导致 $a_i$ 在增加过程中远不及 $b_i$ 分离度带来的影响大，而当簇类个数增加时，会使得 $b_i$ 逐渐减小，此时轮廓系数会变小。当簇类之间的距离区域稳定后，才会慢慢的呈现轮廓系数先升高后降低的趋势。此时的轮廓系数最高点对应的簇类个数可能才作为我们的最佳聚类个数。

话说回来，“过山车”情况是由于数据的特性和聚类算法的性质所导致的，所以我们的在找最佳聚类个数时，可以通过改变Kmeans算法的种子数seed，使得初始化不同簇类中心点的位置不会离得这么远，这样才能做到轮廓系数先增加后减少的趋势。

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Mr.Wiggles 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。