高级聚类方法详解
1. 学习目标
在深入学习之前,先明确我们的学习目标:
- 能够执行 k-modes 聚类。
- 实现 DBSCAN 聚类。
- 执行层次聚类并将聚类结果记录在树状图中。
- 执行分裂式和凝聚式聚类。
2. 高级聚类方法概述
之前我们学习了无监督学习中一些最基本的算法,如 k-means 聚类和 k-medoids 聚类。这些算法不仅在实际应用中很重要,对于理解聚类本身也至关重要。接下来,我们将研究其他一些高级聚类算法。这里说的“高级”并非指难以理解,而是在使用这些算法之前,数据科学家需要深入思考为什么选择它们,而不是之前学过的通用聚类算法。k-means 是一种通用的聚类算法,适用于大多数情况,但在某些特殊情况下,根据数据类型的不同,高级聚类算法可能会产生更好的结果。
3. k-modes 聚类介绍
3.1 适用场景
我们之前学习的聚类类型都是基于距离度量的。但如果遇到一个数据集,其中变量之间的距离无法用传统意义来衡量,比如分类变量的情况,这时就需要使用 k-modes 聚类。
3.2 原理
k-modes 聚类是 k-means 聚类的扩展,它处理的是众数而不是均值。k-modes 聚类的一个主要应用是分析分类数据,如调查结果。
3.3 步骤
在统计学中,众数被定义为出现频率最高的值。因此,对于 k-modes 聚类,我们将计算分类值的众数来选择聚类中心。具体步骤如下:
1. 选择任意 k 个随机点作为聚类中心。
2. 计算每个点到中心的汉明
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



