31、非概率聚类方法全解析

非概率聚类方法详解

最新推荐文章于 2025-11-06 09:52:54 发布

root9

最新推荐文章于 2025-11-06 09:52:54 发布

阅读量24

点赞数

CC 4.0 BY-SA版权

分类专栏：数据驱动神经科学文章标签： DBSCAN HDBSCAN∗ 聚类数量选择

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/root9/article/details/152344984

数据驱动神经科学专栏收录该内容

47 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

非概率聚类方法全解析

1. DBSCAN算法及其改进

DBSCAN算法是一种基于密度的聚类算法。在给定参数 ε = 1，minPts = 4 以及欧几里得距离的情况下，如果从点 x0 出发，xi 和 xj 是密度可达的，那么 xi 和 xj 就是密度相连的。该算法会从一个核心点开始创建新的聚类，将其邻域内的所有点都分配到这个聚类中。若在邻域内发现了额外的核心点，搜索范围会扩展到该核心点的邻域，不断重复这个扩展过程，直到没有更多的核心点为止，此时该聚类完成。处理完所有对象后，未被分配到任何聚类的对象被视为噪声点。

不过，DBSCAN算法存在一个问题，即边界点可能从多个聚类的核心点都是密度可达的，算法会根据数据对象在存储中的顺序将这些点分配到第一个处理的聚类中。为了解决这个问题，HDBSCAN∗ 将所有边界点都视为噪声点，不进行分配。

DBSCAN算法在实际中有很多应用。例如，Sengupta 等人用它对变量组进行聚类，然后从每个聚类中选择一个变量来构建监督分类模型，以区分帕金森病患者和健康个体；Baselice 等人则使用其改进版本对人类大脑的 MR 图像进行聚类。

2. 聚类数量的选择

确定数据集中“正确”的聚类数量是数据聚类中的一个重要问题。除了亲和传播算法外，大多数分区聚类算法都需要指定这个参数，而在分层聚类中，相当于确定切割树状图以得到聚类的高度。

“正确的聚类数量”这个概念往往比较模糊，它取决于用户期望的聚类分辨率。直观上，最优的聚类数量 K 应该在使用单个聚类对数据集进行最大压缩（K = 1）和为每个对象分配一个单独的聚类以实现聚类标准的最大性能（K = N）之间取得平衡。

以下是一些选

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。