点击上方关注,All in AI中国
聚类是最常见的无监督机器学习问题之一。通过一些相似性度量方法把一些观测值分成同一类。
共有5类聚类方法:
- 层次法
- 划分法(k-means,PAM,CLARA)
- 基于密度的方法
- 基于模型的方法
- 模糊聚类
起初,我写这篇文章主要是由于我阅读了关于clustree包,dendextend文档以及由Alboekadel Kassambara撰写的factoextra编写的关于聚类分析的实用指南。
数据集
我将使用集群包中一个鲜为人知的数据集:all.mammals.milk.1956,这是我之前没有研究过的一个数据集。
数据集传送门:https://www.rdocumentation.org/packages/cluster.datasets/versions/1.0-1/topics/all.mammals.milk.1956
这个小数据集包含了25种哺乳动物及其牛奶成分(水,蛋白质,脂肪,乳糖,灰分百分比)的清单。
首先让我们加载所需的包。
现在加载数据。
让我们研究并可视化这些数据。
所有变量用数字来表示,那么,统计分布呢?
不同属性之间的关系是什么?使用corrplot()创建相关矩阵。
当您拥有以不同比例测量的变量时