15、聚类分析:方法与实践

聚类分析:方法与实践

1. 监督学习与无监督学习

在之前的分析中,我们主要关注监督学习,即通过已知的输出变量 (y) 与输入变量 (x) 的关系 (y = f(x)) 来训练算法,以解决诸如乳腺癌诊断或前列腺特异性抗原水平预测等问题。但在很多情况下,我们可能没有输出变量 (y),或者选择忽略它,这时就进入了无监督学习的领域。无监督学习的算法构建和选择更多基于业务需求,而非单纯追求准确性。

无监督学习有两个重要作用:一是帮助我们理解和识别数据中的模式;二是可用于数据转换,以提升监督学习的效果。本文主要聚焦于前者。

2. 聚类分析概述

聚类分析的目标是将观测值分组为 (k) 个组,使得组内成员尽可能相似,组间成员尽可能不同。聚类分析在很多场景中都有应用,例如:
- 创建客户类型或细分市场
- 检测地理区域内的高犯罪区域
- 图像和面部识别
- 基因测序和转录
- 石油和地质勘探

常见的聚类技术有层次聚类和 (k) - 均值聚类。但对于大规模和多样化的数据集,这两种方法可能并不总是适用。因此,我们还会介绍基于 Gower 度量的围绕中心点划分(PAM)方法,以及使用随机森林转换数据的新方法。

3. 层次聚类

层次聚类算法基于观测值之间的相异度度量,常用的是欧几里得距离。它是一种自下而上的聚合技术,初始时每个观测值都是一个单独的聚类,然后迭代地合并最相似的两个聚类。

在迭代过程中,除了距离度量,还需要指定观测组之间的连接方式。不同类型的数据可能需要不同的聚类连接方式,常见的连接方式如下表所示:
| 连接方式 | 描述 |

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值