聚类与最近邻分类技术详解
1. 层次聚类
1.1 层次聚类概述
层次聚类是通过构建聚类树来表示数据集的一种方法,它具有树状结构,父节点连接两个或多个子节点,并且可以从下到上或从上到下进行排序。层次聚类主要分为“分裂式”和“聚合式”两种类型:
- 分裂式聚类 :将整个数据集分配到一个单一的聚类中,然后将其划分为两个最不相似的聚类,重复此过程直到每个数据点都被分配到一个聚类中。
- 聚合式聚类 :将数据集中的每个元素分配到一个单独的聚类中,计算每个聚类之间的相似度,然后将两个最相似的聚类合并为一个,重复此步骤直到只剩下一个聚类。
1.2 不同类型的链接
层次聚类考虑每个数据点为一个单例聚类,然后将它们合并直到形成一个单一的聚类。根据不同的距离计算方式,层次聚类支持三种不同类型的链接:
- 单链接聚类 :两个聚类之间的距离等于两个聚类中最接近成员之间的距离。
- 完全链接聚类 :聚类时考虑最远点之间的距离,只有当两个聚类的所有观测值相对相似时才将它们聚类在一起,这样会产生直径较小的紧凑聚类。
- 平均链接聚类 :通过测量所有点对之间的平均距离来对数据点进行聚类。
1.3 层次聚类算法
以下是层次聚类算法的详细步骤:
Input: CSV文件,包含每个特征
Output: 指示聚类样本的树状图
超级会员免费看
订阅专栏 解锁全文
62

被折叠的 条评论
为什么被折叠?



