11、探索聚类分析:从葡萄酒数据中发现潜在结构

探索聚类分析:从葡萄酒数据中发现潜在结构

1. 聚类分析简介

聚类分析有众多应用场景,如基因测序与转录、石油和地质勘探等。常见的聚类技术有层次聚类和 k - 均值聚类,但对于大规模和多样化的数据集,这两种方法可能并不总是适用。因此,还会探讨基于 Gower 度量的相异矩阵作为输入的围绕中心点划分(PAM)方法。

有人认为由于聚类是无监督学习,这些技术更像是艺术而非科学,其实答案是“视情况而定”。聚类不应被视为与应用无关的数学问题,而应结合其最终用途来研究。

2. 层次聚类

层次聚类算法基于观测值之间的相异度度量,常用的是欧几里得距离。它是一种聚合或自下而上的技术,所有观测值最初各自为一个簇,然后迭代地寻找最相似的两个簇进行合并。

在迭代过程中,除了距离度量,还需要指定观测组之间的连接方式。不同类型的数据集可能需要不同的簇连接方式,在实验过程中可能会出现某些连接方式导致簇中观测值数量严重不平衡的情况,此时需要根据数据和业务情况选择最合适的连接方式。

常见的连接方式如下表所示:
| 连接方式 | 描述 |
| — | — |
| Ward | 最小化簇内总方差,通过簇点到其质心的误差平方和来衡量 |
| Complete | 两个簇之间的距离是一个簇中的一个观测值与另一个簇中的一个观测值之间的最大距离 |
| Single | 两个簇之间的距离是一个簇中的一个观测值与另一个簇中的一个观测值之间的最小距离 |
| Average | 两个簇之间的距离是一个簇中的一个观测值与另一个簇中的一个观测值之间的平均距离 |
| Centroid | 两个簇之间的距

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值