Complete Link Ward’s Method


Complete Link

Complete Link 的核心
  • Complete Link 的目标是计算两个簇 CiC_iCiCjC_jCj 之间的“最大距离”,定义为:
    GD(Ci,Cj)=max⁡xi∈Ci,xj∈CjD(xi,xj) G_D(C_i, C_j) = \max_{x_i \in C_i, x_j \in C_j} D(x_i, x_j) GD(Ci,Cj)=xiCi,xjCjmaxD(xi,xj)
    其中:
    • D(xi,xj)D(x_i, x_j)D(xi,xj):表示簇 CiC_iCi 中的点 xix_ixi 和簇 CjC_jCj 中的点 xjx_jxj 之间的距离。
    • max⁡\maxmax:取两个簇之间的所有点对中最大的距离作为簇之间的距离。
Complete Link 的作用
  1. 最紧密的簇

    • 只有当两个簇之间所有点的最大距离足够小时,两个簇才会合并。
    • 确保合并后的簇内部“紧密”,避免形成长链(解决 Single Link 的长链问题)。
  2. 寻找最小的 GDG_DGD

    • 在层次聚类中,每次迭代都会寻找距离最小的簇对(即最小的 GDG_DGD)进行合并。
    • Complete Link 的 GDG_DGD 计算方式是基于两个簇中点对的最大距离。

Ward’s Method

Ward’s Method 的核心
  • Ward 方法通过计算簇内的 总平方误差(Total Squared Error, TSE) 来定义簇之间的距离。
  • 当合并两个簇 CiC_iCiCjC_jCj 时,计算合并后新簇 CijC_{ij}Cij 的中心点 xˉij\bar{x}_{ij}xˉij,并计算所有点到这个中心的偏差平方和:
    GD(Ci,Cj)=1∣Cij∣∑xl∈Cij∥xl−xˉij∥2 G_D(C_i, C_j) = \frac{1}{|C_{ij}|} \sum_{x_l \in C_{ij}} \|x_l - \bar{x}_{ij}\|^2 GD(Ci,Cj)=Cij1xlCijxlxˉij2
    其中:
    • ∣Cij∣|C_{ij}|Cij:簇中点的数量。
    • xˉij=1∣Cij∣∑xl∈Cijxl\bar{x}_{ij} = \frac{1}{|C_{ij}|} \sum_{x_l \in C_{ij}} x_lxˉij=Cij1xlCijxl:新簇的中心点。
Ward’s Method 的作用
  1. 最小化平方误差

    • Ward 方法的目标是尽量合并那些在合并后会导致最小平方误差增加的簇。
    • 通过这种方式,Ward 方法能有效形成紧密且均匀的簇。
  2. 寻找最小的 GDG_DGD

    • 在每次迭代中,Ward 方法选择两个簇,合并后使得平方误差增量最小。

两种方法的核心区别

特性Complete LinkWard’s Method
簇间距离的定义两簇中所有点对的最大距离合并后簇中点到簇中心的平方误差
目标确保簇内部点间的紧密性最小化合并后的总平方误差
适用场景适合需要明确边界的聚类任务适合生成均匀、紧密的簇
计算复杂度距离计算依赖于所有点对,计算较复杂需要计算簇中心及平方误差,计算量较大
适合数据类型更适合高维数据的简单分割更适合均匀分布的数据

总结

  1. Complete Link

    • 定义簇间距离为“最大点对距离”。
    • 适用于需要紧密簇且避免长链问题的场景。
    • 关键是寻找距离最小的 GDG_DGD 进行合并。
  2. Ward’s Method

    • 基于平方误差,计算合并后簇内部点到中心的总偏差。
    • 适合需要紧密且均匀的聚类任务,能生成更有层次结构的聚类结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值