概述
K-means分类算法属于无监督类学习算法。
该分类算法不需要训练算法,直接对待分类点进行决策分类。
算法原理
算法实现过程如下所示:
1、随机创建k个点作为起始质心(也不是完全随机的,创建的质心必须在整个数据集边界内部,即每个质心的每个每一维的取值必须在数据该维度的最大和最小值之间)
2、将数据集中每个数据点分配到对应的质心
计算数据集中每个数据点与k个质心的距离,将数据点分配到距离其最近的质心
3、对每一个簇,计算簇中所有点的均值并将均值作为质心
4、重复步骤2和步骤3,直到所有点的分配结果都不在改变
举例说明
(a)绿色的点表示原始的数据集
(b)在原始数据集边界范围内随机生成两个质心(K=2)
(c)比较整个数据集中每个数据点与两个质心的距离,将其划分到距离较近的簇中(如图中将每个点修改为红色或蓝色)
(d)计算每个簇的均值,找到新的质心(新的红色和蓝色的X,注意这里寻找质心的计算过程尽在上次分好的每个簇内进行)
(e)重新比较整个数据集中每个数据点与新的质心的距离,并重新划分
(f)计算新生成的每个簇的均值,作为质心。
重新计算整个数据集中每个数据点与新的质心的距离,当所有数据点的分类结果都不再变化时,停止迭代
--------------
总结:通过上述过程可知,实际上是先划分好簇,然后才得到最终的质心的
关于计算数据点与质心的距离有不同的方法,得到的分类效果也可能不同,常见的有欧式距离、SSE(误差平方和)