k-means++算法:针对K-means算法缺点的针对性改进版本

    在上一篇中我们对k-means算法进行了简单地介绍,明确了k-means算法的优缺点,本章我们将介绍k-means算法的改进版本——k-means++算法,该算法是为解决k-means分类结果会受到初始点的选取而存在区别而提出的。

    k-means++算法仅对k-means算法的初始点选择部分进行改进,改进后算法的初始质心选择思路为:

  • 初始聚类中心之间的相互距离要尽可能的远;
  • 假设已经选取了n个初始聚类中心(n < k),则在选取第 n+1 个聚类中心时,距离当前 n 个聚类中心越远的点会有更高的概率被选为第 n+1 个聚类中心

    k-means++算法的步骤如下:

  1.   随机选择一个样本作为第一个聚类中心 c1;
  2.   计算每个样本与当前已有聚类中心的最短距离(即与最近一个聚类中心的距离),用 D(x)表示,这个值越大,表示被选取作为聚类中心的概率就越大;

    k-means聚类算法的两个难点:

  1. 确定 k 值得大小

k 值的确定

        样本聚类误差平方和,核心指标是SSE(Sum of the squared errors, 误差平方和)

其中,K是聚类数量,p是样本,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值