聚类算法:K-means和K-medoids

本文介绍了K-means和K-medoids两种聚类算法。K-means算法以其可扩展性和高效率在大数据集上表现良好,但需要预设聚类数,对非数值属性和非凸形状簇不适用。而K-medoids算法对属性类型无限制,鲁棒性更强,但计算时间较长。两者的主要区别在于K-means使用簇内平均值作为中心,而K-medoids则选择集群中的实际样本作为代表点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

K-means算法

核心思想

通过迭代把数据对象划分到不同的簇中,以求目标函数最小化,从而使生成的簇尽可能地紧凑和独立。
首先,随机选取k个对象作为初始的k个簇的质心;
然后,将其余对象根据其与各个簇质心的距离分配到最近的簇;再求新形成的簇的质心。
这个迭代重定位过程不断重复,直到目标函数最小化为止。

目标函数为平方误差准则函数,采用欧几里得距离度量

1、优点:

在处理大数据集时,该算法是相对可扩展性的,并且具有较高的效率。
算法复杂度为O(nkt),其中,n为数据集中对象的数目,k为期望得到的簇的数目,t为迭代的次数。

2、应用局限性:

用户必须事先指定聚类簇的个数;
常常终止于局部最优;
只适用于数值属性聚类(计算均值有意义);
对噪声和异常数据也很敏感;
不适合用于发现非凸形状的聚类簇。


K-medoids算法

处理流程

首先,随机选择k个对象作为初始的k个簇的代表点,将其余对象按与代表点对象的距离分配到最近的簇;
然后,反复用非代表点来代替代表点,以改进聚类质量。(用一个代价函数来估计聚类质量,该函数度量对象与代表点对象之间的平均相异度。)

目标函数采用平方误差准则

1、优点:

对属性类型没有局

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值