15、聚类分析：方法与实践

leaf8

于 2025-09-23 10:25:12 发布

阅读量31

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握R语言机器学习精髓文章标签：聚类分析层次聚类 k-均值聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/leaf8/article/details/152439089

掌握R语言机器学习精髓专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

聚类分析：方法与实践

1. 监督学习与无监督学习

在之前的分析中，我们主要关注监督学习，即通过已知的输出变量 (y) 与输入变量 (x) 的关系 (y = f(x)) 来训练算法，以解决诸如乳腺癌诊断或前列腺特异性抗原水平预测等问题。但在很多情况下，我们可能没有输出变量 (y)，或者选择忽略它，这时就进入了无监督学习的领域。无监督学习的算法构建和选择更多基于业务需求，而非单纯追求准确性。

无监督学习有两个重要作用：一是帮助我们理解和识别数据中的模式；二是可用于数据转换，以提升监督学习的效果。本文主要聚焦于前者。

2. 聚类分析概述

聚类分析的目标是将观测值分组为 (k) 个组，使得组内成员尽可能相似，组间成员尽可能不同。聚类分析在很多场景中都有应用，例如：
- 创建客户类型或细分市场
- 检测地理区域内的高犯罪区域
- 图像和面部识别
- 基因测序和转录
- 石油和地质勘探

常见的聚类技术有层次聚类和 (k) - 均值聚类。但对于大规模和多样化的数据集，这两种方法可能并不总是适用。因此，我们还会介绍基于 Gower 度量的围绕中心点划分（PAM）方法，以及使用随机森林转换数据的新方法。

3. 层次聚类

层次聚类算法基于观测值之间的相异度度量，常用的是欧几里得距离。它是一种自下而上的聚合技术，初始时每个观测值都是一个单独的聚类，然后迭代地合并最相似的两个聚类。

在迭代过程中，除了距离度量，还需要指定观测组之间的连接方式。不同类型的数据可能需要不同的聚类连接方式，常见的连接方式如下表所示：
| 连接方式 | 描述 |

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。