聚类分析:方法与实践
1. 监督学习与无监督学习
在之前的分析中,我们主要关注监督学习,即通过已知的输出变量 (y) 与输入变量 (x) 的关系 (y = f(x)) 来训练算法,以解决诸如乳腺癌诊断或前列腺特异性抗原水平预测等问题。但在很多情况下,我们可能没有输出变量 (y),或者选择忽略它,这时就进入了无监督学习的领域。无监督学习的算法构建和选择更多基于业务需求,而非单纯追求准确性。
无监督学习有两个重要作用:一是帮助我们理解和识别数据中的模式;二是可用于数据转换,以提升监督学习的效果。本文主要聚焦于前者。
2. 聚类分析概述
聚类分析的目标是将观测值分组为 (k) 个组,使得组内成员尽可能相似,组间成员尽可能不同。聚类分析在很多场景中都有应用,例如:
- 创建客户类型或细分市场
- 检测地理区域内的高犯罪区域
- 图像和面部识别
- 基因测序和转录
- 石油和地质勘探
常见的聚类技术有层次聚类和 (k) - 均值聚类。但对于大规模和多样化的数据集,这两种方法可能并不总是适用。因此,我们还会介绍基于 Gower 度量的围绕中心点划分(PAM)方法,以及使用随机森林转换数据的新方法。
3. 层次聚类
层次聚类算法基于观测值之间的相异度度量,常用的是欧几里得距离。它是一种自下而上的聚合技术,初始时每个观测值都是一个单独的聚类,然后迭代地合并最相似的两个聚类。
在迭代过程中,除了距离度量,还需要指定观测组之间的连接方式。不同类型的数据可能需要不同的聚类连接方式,常见的连接方式如下表所示:
| 连接方式 | 描述 |
超级会员免费看
订阅专栏 解锁全文
875

被折叠的 条评论
为什么被折叠?



