k均值介绍

最新推荐文章于 2023-05-10 18:07:42 发布

原创最新推荐文章于 2023-05-10 18:07:42 发布 · 1.5k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #算法

K均值聚类

算法介绍：

K-Means算法思想简单，效果却很好，是最有名的聚类算法。

它的基本思想是：通过迭代寻找k个聚类的一种划分方案，使得用这k个聚类的均值来代表相应各类样本时所得的总体误差最小。

k-means算法的基础是最小误差平方和准则。其代价函数是：

式中，μc(i)表示第i个聚类的均值。我们希望代价函数最小，直观的来说，各类内的样本越相似，其与该类均值间的误差平方越小，对所有类

所得到的误差平方求和，即可验证分为k类时，各聚类是否是最优的。

聚类算法的步骤如下：

k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的，相近的就会放到同一个类别中去。

1.首先我们需要选择一个k值，也就是我们希望把数据分成多少类，这里k值的选择对结果的影响很大，Ng的课说的选择方法有两种一种是elbowmethod，简单的说就是根据聚类的结果和k的函数关系判断k为多少的时候效果最好。另一种则是根据具体的需求确定，比如说进行衬衫尺寸的聚类你可能就会考虑分成三类（L,M,S）等（初始化K个样本作为初始聚类中心）

2.然后我们需要选择最初的聚类点（或者叫质心），这里的选择一般是随机选择的，代码中的是在数据范围内随机选择，另一种是随机选择数据中的点。这些点的选择会很大程度上影响到最终的结果，也就是说运气不好的话就到局部最小值去了。这里有两种处理方法，一种是多次取均值，另一种则是后面的改进算法（bisectingK-means）（计算每个样本点到K个中心的距离，选择最近的中心作为其分类，直到所有样本点分类完毕）

3.终于我们开始进入正题了，接下来我们会把数据集中所有的点都计算下与这些质心的距离，把它们分到离它们质心最近的那一类中去。完成后我们则需要将每个簇算出平均值，用这个点作为新的质心。反复重复这两步，直到收敛我们就得到了最终的结果。（分别计算K个类中所有样本的质心，作为新的中心点，完成一轮迭代。）

通常的迭代结束条件为新的质心与之前的质心偏移值小于一个给定阈值。

1、随机选取 k个聚类质心点

2、重复下面过程直到收敛

对于每一个样例 i，计算其应该属于的类：