一、实验介绍
1.1 简单介绍
简单介绍K-means、层次聚类,DBSCAN 和密度峰值聚类(DPC)算法的原理
1.2 鸢尾花数据实验
- 对鸢尾花数据集进行探索性分析与预处理
- 选取兰德系数和轮廓系数作为评价指标,对四种算法在该数据集上的性能进行分析
1.3 算法参数影响探究
- 介绍三种算法中的几个主要参数(K-Means 中的 k 参数、DBSCAN 中的 eps 与 min_samples 参数、DPC 中的t0参数–t0 的含义为圆中样本个数占数据集总样本数的比例)
- 以鸢尾花数据为例,选取合适的评价指标,探究 K-Means 算法中 k 参数对算法的性能影响,并尝试找出确定 k 参数的方法
- 以模拟数据为例(如:高斯分布数据集,Spiral 数据集,Circle数据集),选取合适的评价指标,探究另外三个参数(eps与min_samples、t0)对各自算法的性能影响
二、项目地址
https://mbd.pub/o/bread/ZJaZk5ps

三、算法结果展示
- 绘制原始分布图































文章探讨了K-means、层次聚类、DBSCAN和密度峰值聚类(DPC)的基本原理,并在鸢尾花数据集上进行了实验。通过兰德系数和轮廓系数评估了四种算法的性能。此外,研究了k、eps、min_samples和t0等关键参数对算法的影响,并在不同数据集上进行了参数敏感性分析。
10万+

被折叠的 条评论
为什么被折叠?



