探索聚类分析:从葡萄酒数据中发现潜在结构
1. 聚类分析简介
聚类分析有众多应用场景,如基因测序与转录、石油和地质勘探等。常见的聚类技术有层次聚类和 k - 均值聚类,但对于大规模和多样化的数据集,这两种方法可能并不总是适用。因此,还会探讨基于 Gower 度量的相异矩阵作为输入的围绕中心点划分(PAM)方法。
有人认为由于聚类是无监督学习,这些技术更像是艺术而非科学,其实答案是“视情况而定”。聚类不应被视为与应用无关的数学问题,而应结合其最终用途来研究。
2. 层次聚类
层次聚类算法基于观测值之间的相异度度量,常用的是欧几里得距离。它是一种聚合或自下而上的技术,所有观测值最初各自为一个簇,然后迭代地寻找最相似的两个簇进行合并。
在迭代过程中,除了距离度量,还需要指定观测组之间的连接方式。不同类型的数据集可能需要不同的簇连接方式,在实验过程中可能会出现某些连接方式导致簇中观测值数量严重不平衡的情况,此时需要根据数据和业务情况选择最合适的连接方式。
常见的连接方式如下表所示:
| 连接方式 | 描述 |
| — | — |
| Ward | 最小化簇内总方差,通过簇点到其质心的误差平方和来衡量 |
| Complete | 两个簇之间的距离是一个簇中的一个观测值与另一个簇中的一个观测值之间的最大距离 |
| Single | 两个簇之间的距离是一个簇中的一个观测值与另一个簇中的一个观测值之间的最小距离 |
| Average | 两个簇之间的距离是一个簇中的一个观测值与另一个簇中的一个观测值之间的平均距离 |
| Centroid | 两个簇之间的距
超级会员免费看
订阅专栏 解锁全文
2317

被折叠的 条评论
为什么被折叠?



