11、探索聚类分析：从葡萄酒数据中发现潜在结构

最新推荐文章于 2025-11-01 11:35:36 发布

咖啡JSON

最新推荐文章于 2025-11-01 11:35:36 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏：精通R语言机器学习文章标签：聚类分析层次聚类 k-均值聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/i1j2k/article/details/152439924

精通R语言机器学习专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

探索聚类分析：从葡萄酒数据中发现潜在结构

1. 聚类分析简介

聚类分析有众多应用场景，如基因测序与转录、石油和地质勘探等。常见的聚类技术有层次聚类和 k - 均值聚类，但对于大规模和多样化的数据集，这两种方法可能并不总是适用。因此，还会探讨基于 Gower 度量的相异矩阵作为输入的围绕中心点划分（PAM）方法。

有人认为由于聚类是无监督学习，这些技术更像是艺术而非科学，其实答案是“视情况而定”。聚类不应被视为与应用无关的数学问题，而应结合其最终用途来研究。

2. 层次聚类

层次聚类算法基于观测值之间的相异度度量，常用的是欧几里得距离。它是一种聚合或自下而上的技术，所有观测值最初各自为一个簇，然后迭代地寻找最相似的两个簇进行合并。

在迭代过程中，除了距离度量，还需要指定观测组之间的连接方式。不同类型的数据集可能需要不同的簇连接方式，在实验过程中可能会出现某些连接方式导致簇中观测值数量严重不平衡的情况，此时需要根据数据和业务情况选择最合适的连接方式。

常见的连接方式如下表所示：
| 连接方式 | 描述 |
| — | — |
| Ward | 最小化簇内总方差，通过簇点到其质心的误差平方和来衡量 |
| Complete | 两个簇之间的距离是一个簇中的一个观测值与另一个簇中的一个观测值之间的最大距离 |
| Single | 两个簇之间的距离是一个簇中的一个观测值与另一个簇中的一个观测值之间的最小距离 |
| Average | 两个簇之间的距离是一个簇中的一个观测值与另一个簇中的一个观测值之间的平均距离 |
| Centroid | 两个簇之间的距

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。