你需要掌握选择最佳聚类数目的这10个技巧!

本文介绍了确定聚类最佳数量的多种方法,包括‘肘部’法、差距统计、轮廓法、离差平方和法以及 NbClust 包。以哺乳动物牛奶成分数据集为例,通过可视化和不同聚类算法的比较,展示了如何选择合适的聚类数目,帮助理解聚类分析的实践应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

点击上方关注,All in AI中国
你需要掌握选择最佳聚类数目的这10个技巧!

聚类是最常见的无监督机器学习问题之一。通过一些相似性度量方法把一些观测值分成同一类。

共有5类聚类方法:

  • 层次法
  • 划分法(k-means,PAM,CLARA)
  • 基于密度的方法
  • 基于模型的方法
  • 模糊聚类

起初,我写这篇文章主要是由于我阅读了关于clustree包,dendextend文档以及由Alboekadel Kassambara撰写的factoextra编写的关于聚类分析的实用指南。

数据集

我将使用集群包中一个鲜为人知的数据集:all.mammals.milk.1956,这是我之前没有研究过的一个数据集。

数据集传送门:https://www.rdocumentation.org/packages/cluster.datasets/versions/1.0-1/topics/all.mammals.milk.1956

这个小数据集包含了25种哺乳动物及其牛奶成分(水,蛋白质,脂肪,乳糖,灰分百分比)的清单。

首先让我们加载所需的包。

你需要掌握选择最佳聚类数目的这10个技巧!

现在加载数据。

你需要掌握选择最佳聚类数目的这10个技巧!

让我们研究并可视化这些数据。

你需要掌握选择最佳聚类数目的这10个技巧!

所有变量用数字来表示,那么,统计分布呢?

你需要掌握选择最佳聚类数目的这10个技巧!

你需要掌握选择最佳聚类数目的这10个技巧!

你需要掌握选择最佳聚类数目的这10个技巧!

你需要掌握选择最佳聚类数目的这10个技巧!

不同属性之间的关系是什么?使用corrplot()创建相关矩阵。

你需要掌握选择最佳聚类数目的这10个技巧!

你需要掌握选择最佳聚类数目的这10个技巧!

当您拥有以不同比例测量的变量时࿰

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值