聚类算法：K-means和K-medoids

最新推荐文章于 2025-04-13 00:36:37 发布

潜心学习的渣渣

最新推荐文章于 2025-04-13 00:36:37 发布

阅读量3.1k

点赞数

分类专栏：聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43868020/article/details/117078694

版权

本文介绍了K-means和K-medoids两种聚类算法。K-means算法以其可扩展性和高效率在大数据集上表现良好，但需要预设聚类数，对非数值属性和非凸形状簇不适用。而K-medoids算法对属性类型无限制，鲁棒性更强，但计算时间较长。两者的主要区别在于K-means使用簇内平均值作为中心，而K-medoids则选择集群中的实际样本作为代表点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

K-means算法

核心思想

通过迭代把数据对象划分到不同的簇中，以求目标函数最小化，从而使生成的簇尽可能地紧凑和独立。
首先，随机选取k个对象作为初始的k个簇的质心；
然后，将其余对象根据其与各个簇质心的距离分配到最近的簇；再求新形成的簇的质心。
这个迭代重定位过程不断重复，直到目标函数最小化为止。

目标函数为平方误差准则函数，采用欧几里得距离度量

1、优点：

在处理大数据集时，该算法是相对可扩展性的，并且具有较高的效率。
算法复杂度为O(nkt),其中，n为数据集中对象的数目，k为期望得到的簇的数目，t为迭代的次数。

2、应用局限性：

用户必须事先指定聚类簇的个数；
常常终止于局部最优；
只适用于数值属性聚类(计算均值有意义)；
对噪声和异常数据也很敏感；
不适合用于发现非凸形状的聚类簇。

K-medoids算法

处理流程

首先，随机选择k个对象作为初始的k个簇的代表点，将其余对象按与代表点对象的距离分配到最近的簇；
然后，反复用非代表点来代替代表点，以改进聚类质量。(用一个代价函数来估计聚类质量，该函数度量对象与代表点对象之间的平均相异度。)

目标函数采用平方误差准则

1、优点：

对属性类型没有局

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。