本文目录
KMeas算法是一种聚类算法,同时也是一种无监督的算法,即在训练模型时并不需要标签,其主要目的是通过循环迭代,将样本数据分成 K K K类。
基本训练步骤
- Step1:初始化 K K K个聚类中心(不必是真是的样本)
- Step2:分别计算所有样本点到这 K K K个聚类中心的距离,并把样本点划分至距离最近的group
- Step3:针对于每个group,计算其组内的平均点作为新的聚类中心(例如用户有年龄、性别两个特征,针对于年龄特征直接求平均值即可,对于性别特征使用onehot编码,每个纬度都求其平均值即可)
- Step4:重复步骤2和3直到满足终止条件
其基本过程如下图所示:
关于KMeans的几个问题
KMeans算法的目标函数是什么?
已知观测集 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn),其中每个观测都是一个d维实向量,k平均聚类要把这