一、层次聚类介绍
1.1 简介
层次聚类,主要是对给定的待聚类的数据集进行层次化分解。主要分为两大类:
1.从下到上的凝聚聚类
2.从上到下的分裂聚类
其他算法大部分是对样本之间距离度量或者类间凝聚/分裂依据进行改进。
1.2从下到上的凝聚算法
从下到上的凝聚算法能够让人们较为直观的观察到凝聚的树结构,也是层次聚类中比较常用的一个方法。
主要过程如下图所示。
其中需要的步骤主要有三步:
1.选择变量
选择需要聚类的样本,就是需要聚类的数据集
2.计算样本之间的距离/相似度
关于样本距离的选择如果是空间变量,变量之间没有相互关系,一般选择欧式距离
如果样本之间存在物理上的关联,比如下一样本的产生与上一样本具有相同的物理原理,一般选择相似度。
将每个样本看成一个簇,计算每一类(样本)与其他类(样本)之间的相似度/距离,将样本距离按从小到大进行排序,按照从距离/相似度距离进行不断连接。
很明显黄点与紫色点聚为一类,然后可以得到6类,如下图所示,然后计算样本距离。