K-means算法中K指分成多少类,为数据挖掘十大算法之一。
- 基本原理:在非监督学习(Unsupervised Learning)中,没有标签用来分类,此时应如何分类?
K-means算法是一种解决方案,此实例较为简单,提前声明数据集要分类的数目,即K值。以空间中K个点为中心进行聚类,对最靠近他们的对象归类,逐次更新各聚类中心的值,直到最后的聚类结果。
- 算法描述:
-
- 适当选择k个类的初始中心,记为 c
- 在第k次迭代中,对任意一个样本,计算到c中各个中心点的距离,将该样本归到距离最短的中心x所在的类。即 data[i,-1]=x
- 利用均值等方法更新该类的中心值
- 对于所有的聚类中心,进行2、3迭代更新后,若c值保持不变,则迭代结束
- 示例:分类四个药物,特征值简单,只有2个
Object | Feature 1:Weight Index | Feature 2: pH |
---|---|---|
Medicine A | 1 |