聚类就是将某个数据集中的样本按照之间的某些区别划分为若干个不相交的子集,我们把每个子集称为一个“簇”。划分完成后,每个簇都可能对应着某一个类别;需说明的是,这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇对应的概念语义由使用者来把握和命名。
有关聚类的算法很多,下面这张表格引用自Scikit-learn 官方文档,从这张表中可以看到各个聚类算法之间的不同以及对不同数据及划分时的匹配程度,和优劣性。我们在选择聚类算法的时候,首先一定要熟悉自己的数据,大概了解自己的数据是怎样的一个分布和结构。这样,有利于我们选择合适的算法,从而得到优秀的聚类结果。这篇文章仅仅介绍K-means聚类算法,以及它的推广版K-mean++算法。



k-means算