无监督学习中的聚类算法详解
1. 分裂层次聚类
分裂层次聚类的聚类过程从树状图的顶部或根节点开始,此时所有数据点都在一个单一的簇中。然后,它开始将根节点分裂成一组子簇,这个分裂过程会持续应用于每个子簇,直到每个数据点都成为一个单独的簇为止。
1.1 分裂层次聚类步骤
- 初始化 :从树状图的顶部或根节点开始,此时包含一个包含所有数据点的单一簇。
- 重复 :
- 选择要分裂的簇。
- 确定分裂方式:使用扁平聚类算法(如 k - 均值聚类)分裂该簇。
- 终止条件 :每个数据点都在其单独的簇中。
1.2 优缺点
与自底向上的方法相比,自顶向下的分裂层次聚类更复杂,因为它使用了扁平聚类算法。不过,自顶向下的方法更准确,因为它从全局分布给出了完整的概念,而自底向上的方法则从局部分布进行决策。
2. 簇合并技术
为了定义合并两个簇的簇间距离,广泛使用以下几种方法:
| 方法 | 定义 | 优缺点 |
| ---- | ---- | ---- |
| 单链接(最小链接) | 两个簇 $C_1$ 和 $C_2$ 之间的距离由属于不同簇的最接近的数据对象对的距离表示,公式为 $d(C_1,C_2)=\min_{x\in C_1,y\in C_2}d(x,y)$ | 对离群值敏感,因为离群值与其他数据点距离较远 |
超级会员免费看
订阅专栏 解锁全文
1179

被折叠的 条评论
为什么被折叠?



