文章目录
K-MEANS CLUSTERING
方法介绍
K-means 是经典的聚类算法,也是数据挖掘十大经典算法之一。聚类思想就是无监督学习中将较为相似的数据归为一类的,正所谓“物以类聚,人以群分”,大约就是这样,而 K- means 就是聚类算法中最为简洁,高效的一种,他是用于在无监督学习中,在一群未标注的数据中寻找聚类(culster)和聚类中心(cluster center)的方法。
- 核心思想:选定 K 个聚类中心, 通过算法不断迭代移动中心位置以极小化聚类集群内部的方差总和。
算法介绍
- 当我们给定了初始中心以后,K-means 算法交替进行两个步骤:
1、对每一个中心我们识别出比起别的任何聚类点离某个聚类点更近的子群。
2、计算出每个集群中的数据点的特征均值,这个均值向量就成为这个集群的新的中心。 重复迭代这两步,直到算法收敛。
K-means 优缺点
- 优点:
1、 计算时间短,收敛速度快。
2、需要调参的话就只要 K 一个参数。(iii) 容易解释。 - 缺点:
1、初始 K 值需要预先给定:而这个很大程度取决于经验,但是这个 K 值是否能正确选取,也决定了 K-means 能否有效率的正确分类。
2、K-means 相当依赖一开始选取的聚类中心,而开始的聚类中心是随机选取的也就是说有相当比例的只能取得局部最小值而无法取得全局最小值。
3、K-means 无法适用于所有的数据集类型。
4、对于过于离散的点和奇异点的聚类效果也不好。