文章目录
一、聚类分析
(一)概念介绍
聚类分析是一类将数据所研究对象进行分类的统计方法。这一类方法的共同特点是:事先不知道类别的个数与结构;据以进行分析的数据是对象之间的相似性或相异性的数据。将这些相似或相异性数据看成是对象之间的“距离”远近的一种度量,将距离近的对象归入一类,不同类之间的对象距离较远。这就是聚类分析方法的共同思路。
聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将它们划分为若干组,划分的原则是组内距离最小化而组间(外部)距离最大化,如图所示:
只适合少量数据,不适合大量数据。数据量大时速度会非常慢。
(二)常用聚类分析算法
二、系统聚类(层次聚类)
(一)概念介绍
系统聚