K-means聚类算法

最新推荐文章于 2024-08-14 00:10:28 发布

Taylor......

最新推荐文章于 2024-08-14 00:10:28 发布

阅读量1.6k

点赞数

分类专栏：机器学习文章标签： K-means K-means++ 关键问题

本文链接：https://blog.youkuaiyun.com/weixin_41848793/article/details/93403928

版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

文章目录

一、经典聚类算法

1. 问题描述

在这里插入图片描述
输入：给定训练样本， $x_{i}\in R^{n}$ ,但是没有给标签（聚类算法是属于无监督学习）
输出：将样本聚类成k个簇（cluster）

2. 算法思路

随机先选定初始聚类中心，然后计算每一个样本到聚类中心的最短距离，并按照距离最小划分对应类，重新计算聚类质心，循环直到收敛
算法步骤：

1.从数据集中随机选择K个样本作为初始化聚类中心 $C=(c_{1},c_{2},....,c_{k})$
2.对于数据中的每一个样本 $x_{i}$ ,计算到K个聚类中心的距离，并将这个样本分类到距离最小的聚类中心所对应的类中
3.对于分完的每一个类别 $c_{i}$ ，重新计算聚类中心 $c_{i}=\frac{1}{|c_{i}|}\sum_{c\in c_{i}}x$ (就是属于该类的所有样本点的质心)
4.重复直到收敛

3. 问题讨论：

1> 若把所有点都分类完成，那么这个类的聚类中心是什么：

聚类中心是该类中所有样本的均值

2> 为什么K-means算法会一直收敛，收敛的最小值是全局最优值吗？

实际上K-means聚类的目标函数是：
$J=\sum_{i=1}^{n}min_{j\in (1,2...,k)}||x^i-c_{j}||^2$

所以可以看到J是非凸函数，意味着不能保证取得的最小值是全局最小值，也就是说k-means对质心初始位置的选取比较敏感
可以发现每一轮计算固定每个类的质心，调整每个样例的所属的类别能让J函数减少，同样固定分类，调整每个类的质心也可以使J减小，所以每次计算目标函数的值都在减小

3>为什么随机选择初始值容易出错

可以分析下初始化选择的k个中心点正好被我们选在了K个簇群的概率：
k个中心点有 k ! 种选择，但是每一个簇群有k种选择，一共有k个簇群，那么概率就是 $\frac{k!}{K^k} \simeq \frac{1}{e^k}$ ,那么当有多个分类的时候会发现我们的错误率几乎为0

4>优化的重点在哪里,优化的思路是怎样的

means对质心初始位置的选取比较敏感,所以初始化类的确定是优化的重点
增加初始化选择的k个中心点正好被我们选在了K个簇群的概率

二、K-means++算法

1. 初始类质心的优化思路

最远遍历
思路：随机选取聚类点k1,k2的选择离k1最远的点，k3选择离k1和k2最远的点，依次次类推，选择得到所有初始化质心，这样尽量可以保证每一个簇群能有一个中心点被选中
缺点：
这样的选择方案受到噪声点（outliner）的影响比较大
如图：
第一个点选择红色，按照最远遍历选择方案，第二个点选择绿色点，第三个点选择中间黑色团

聚类效果如下：（显然不是最优结果）
K-means++
如下介绍

2. K-means++算法

参考论文[3]

1.从数据集中随机选择一个样本点作为初始聚类中心 $c_{i}$
2.计算每个样本与已有最近聚类中心距离 $D (x)$ ：然后计算每个样本被选中为下一个聚类中心的概率公式为 $\frac{D(x)^2}{\sum_{x\in X }D(x)^2}$ ,然后按照轮盘法选择出下一个聚类中心
3.一直选完K个聚类中心
4.按照经典K-means算法直到收敛