聚类属于无监督学习(有点类似全自动分类,类别没有预先定义),目的是找到每个样本x潜在的类别y,并将同类别y的样本x聚集在一起。从结构性来划分,聚类方法分为自上而下和自下而上两种方法,前者的算法是先把所有样本视为一类,然后不断从这个大类中分离出小类,直到不能再分为止;后者则相反,首先所有样本自成一类,然后不断两两合并,直到最终形成几个大类。K-means是聚类算法中最简单的一种,它是一种自下而上的聚类方法。
k-means算法原理
1.随机选取k个点作为质心
2.重复
3. 遍历所有数据,将每个数据划分到最近的中心点中,形成k个簇
4. 重新计算每个簇的质心(计算每个聚类的平均值,并作为新的中心点)
5.直到 这