Complete Link Ward’s Method

最新推荐文章于 2025-08-17 00:19:48 发布

苏西月

最新推荐文章于 2025-08-17 00:19:48 发布

阅读量802

点赞数 7

CC 4.0 BY-SA版权

分类专栏： aml 文章标签：机器学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_51011530/article/details/144361857

aml 专栏收录该内容

66 篇文章

订阅专栏

Complete Link

Complete Link 的核心

Complete Link 的目标是计算两个簇 $C_i$ 和 $C_j$ 之间的“最大距离”，定义为：
$G_D(C_i, C_j) = \max_{x_i \in C_i, x_j \in C_j} D(x_i, x_j)$
其中：
- $D(x_i, x_j)$ ：表示簇 $C_i$ 中的点 $x_i$ 和簇 $C_j$ 中的点 $x_j$ 之间的距离。
- $max⁡\max$ ：取两个簇之间的所有点对中最大的距离作为簇之间的距离。

Complete Link 的作用

最紧密的簇：
- 只有当两个簇之间所有点的最大距离足够小时，两个簇才会合并。
- 确保合并后的簇内部“紧密”，避免形成长链（解决 Single Link 的长链问题）。
寻找最小的 $G_D$ ：
- 在层次聚类中，每次迭代都会寻找距离最小的簇对（即最小的 $G_D$ ）进行合并。
- Complete Link 的 $G_D$ 计算方式是基于两个簇中点对的最大距离。

Ward’s Method

Ward’s Method 的核心

Ward 方法通过计算簇内的 总平方误差（Total Squared Error, TSE） 来定义簇之间的距离。
当合并两个簇 $C_i$ 和 $C_j$ 时，计算合并后新簇 $C_{ij}$ 的中心点 $xˉij\bar{x}_{ij}$ ，并计算所有点到这个中心的偏差平方和：
$G_D(C_i, C_j) = \frac{1}{|C_{ij}|} \sum_{x_l \in C_{ij}} \|x_l - \bar{x}_{ij}\|^2$
其中：
- $C_{ij}|$ ：簇中点的数量。
- $xˉij=1∣Cij∣∑xl∈Cijxl\bar{x}_{ij} = \frac{1}{|C_{ij}|} \sum_{x_l \in C_{ij}} x_l$ ：新簇的中心点。

Ward’s Method 的作用

最小化平方误差：
- Ward 方法的目标是尽量合并那些在合并后会导致最小平方误差增加的簇。
- 通过这种方式，Ward 方法能有效形成紧密且均匀的簇。
寻找最小的 $G_D$ ：
- 在每次迭代中，Ward 方法选择两个簇，合并后使得平方误差增量最小。

两种方法的核心区别

特性	Complete Link	Ward’s Method
簇间距离的定义	两簇中所有点对的最大距离	合并后簇中点到簇中心的平方误差
目标	确保簇内部点间的紧密性	最小化合并后的总平方误差
适用场景	适合需要明确边界的聚类任务	适合生成均匀、紧密的簇
计算复杂度	距离计算依赖于所有点对，计算较复杂	需要计算簇中心及平方误差，计算量较大
适合数据类型	更适合高维数据的简单分割	更适合均匀分布的数据

总结

Complete Link：
- 定义簇间距离为“最大点对距离”。
- 适用于需要紧密簇且避免长链问题的场景。
- 关键是寻找距离最小的 $G_D$ 进行合并。
Ward’s Method：
- 基于平方误差，计算合并后簇内部点到中心的总偏差。
- 适合需要紧密且均匀的聚类任务，能生成更有层次结构的聚类结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。