Complete Link
Complete Link 的核心
- Complete Link 的目标是计算两个簇 CiC_iCi 和 CjC_jCj 之间的“最大距离”,定义为:
GD(Ci,Cj)=maxxi∈Ci,xj∈CjD(xi,xj) G_D(C_i, C_j) = \max_{x_i \in C_i, x_j \in C_j} D(x_i, x_j) GD(Ci,Cj)=xi∈Ci,xj∈CjmaxD(xi,xj)
其中:- D(xi,xj)D(x_i, x_j)D(xi,xj):表示簇 CiC_iCi 中的点 xix_ixi 和簇 CjC_jCj 中的点 xjx_jxj 之间的距离。
- max\maxmax:取两个簇之间的所有点对中最大的距离作为簇之间的距离。
Complete Link 的作用
-
最紧密的簇:
- 只有当两个簇之间所有点的最大距离足够小时,两个簇才会合并。
- 确保合并后的簇内部“紧密”,避免形成长链(解决 Single Link 的长链问题)。
-
寻找最小的 GDG_DGD:
- 在层次聚类中,每次迭代都会寻找距离最小的簇对(即最小的 GDG_DGD)进行合并。
- Complete Link 的 GDG_DGD 计算方式是基于两个簇中点对的最大距离。
Ward’s Method
Ward’s Method 的核心
- Ward 方法通过计算簇内的 总平方误差(Total Squared Error, TSE) 来定义簇之间的距离。
- 当合并两个簇 CiC_iCi 和 CjC_jCj 时,计算合并后新簇 CijC_{ij}Cij 的中心点 xˉij\bar{x}_{ij}xˉij,并计算所有点到这个中心的偏差平方和:
GD(Ci,Cj)=1∣Cij∣∑xl∈Cij∥xl−xˉij∥2 G_D(C_i, C_j) = \frac{1}{|C_{ij}|} \sum_{x_l \in C_{ij}} \|x_l - \bar{x}_{ij}\|^2 GD(Ci,Cj)=∣Cij∣1xl∈Cij∑∥xl−xˉij∥2
其中:- ∣Cij∣|C_{ij}|∣Cij∣:簇中点的数量。
- xˉij=1∣Cij∣∑xl∈Cijxl\bar{x}_{ij} = \frac{1}{|C_{ij}|} \sum_{x_l \in C_{ij}} x_lxˉij=∣Cij∣1∑xl∈Cijxl:新簇的中心点。
Ward’s Method 的作用
-
最小化平方误差:
- Ward 方法的目标是尽量合并那些在合并后会导致最小平方误差增加的簇。
- 通过这种方式,Ward 方法能有效形成紧密且均匀的簇。
-
寻找最小的 GDG_DGD:
- 在每次迭代中,Ward 方法选择两个簇,合并后使得平方误差增量最小。
两种方法的核心区别
特性 | Complete Link | Ward’s Method |
---|---|---|
簇间距离的定义 | 两簇中所有点对的最大距离 | 合并后簇中点到簇中心的平方误差 |
目标 | 确保簇内部点间的紧密性 | 最小化合并后的总平方误差 |
适用场景 | 适合需要明确边界的聚类任务 | 适合生成均匀、紧密的簇 |
计算复杂度 | 距离计算依赖于所有点对,计算较复杂 | 需要计算簇中心及平方误差,计算量较大 |
适合数据类型 | 更适合高维数据的简单分割 | 更适合均匀分布的数据 |
总结
-
Complete Link:
- 定义簇间距离为“最大点对距离”。
- 适用于需要紧密簇且避免长链问题的场景。
- 关键是寻找距离最小的 GDG_DGD 进行合并。
-
Ward’s Method:
- 基于平方误差,计算合并后簇内部点到中心的总偏差。
- 适合需要紧密且均匀的聚类任务,能生成更有层次结构的聚类结果。