机器学习——聚类算法之k-means

一、怎么评判聚类的好坏

   ① 高类间距,低类内距;
   ② 高类内相似度,低类间相似度

二、k-means

1、基本思想

   ① 输入:N个样本;拟定的聚类个数k;
   ② 选取k个不同的样本点作为初始聚类中心;
   ③ 对每一个样本点计算其到每个聚类中心的距离,取其距离最近的聚类中心为该样本点的分类;
   ④ 计算每一类中包含的所有样本点的平均值,作为该类的新聚类中心;
   ⑤ 重复②③④,直到迭代值收敛为止

2、迭代收敛的理解

   ① 聚类中心不再有变化;
   ② 每个样本到对应聚类中心的距离之和不再有很大变化

3、k-means的损失函数

   假定 为K个聚类中心;
   用 表示x n 是否属于聚类k
   则损失函数这如下这样定义的:
在这里插入图片描述
   最小化损失函数的过程是一个NP问题,它是一个收敛到局部最低点的过程。
   这个算法是初始聚类中心敏感的,对其的缓解方法有:
    1)初始第一个聚类中心为某个样本点,初始第二个聚类中心为离它最远的点,第三个为离它俩最远的…;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值