层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用"自底向上"的聚合策略(AGNES),也可采用"自顶向下"(DIANA) 的分拆策略。
1、AGNES算法简介
AGNES 是一种采用自底向上聚合策略的算法。它先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数。
关键是如何计算聚类簇之间的距离?
- 最小距离dmind_{min}dmin由两个簇的最近样本决定
- 最大距离dmaxd_{max}dmax由两个簇的最远样本决定
- 平均距离davgd_{avg}d