31、非概率聚类方法全解析

非概率聚类方法详解

非概率聚类方法全解析

1. DBSCAN算法及其改进

DBSCAN算法是一种基于密度的聚类算法。在给定参数 ε = 1,minPts = 4 以及欧几里得距离的情况下,如果从点 x0 出发,xi 和 xj 是密度可达的,那么 xi 和 xj 就是密度相连的。该算法会从一个核心点开始创建新的聚类,将其邻域内的所有点都分配到这个聚类中。若在邻域内发现了额外的核心点,搜索范围会扩展到该核心点的邻域,不断重复这个扩展过程,直到没有更多的核心点为止,此时该聚类完成。处理完所有对象后,未被分配到任何聚类的对象被视为噪声点。

不过,DBSCAN算法存在一个问题,即边界点可能从多个聚类的核心点都是密度可达的,算法会根据数据对象在存储中的顺序将这些点分配到第一个处理的聚类中。为了解决这个问题,HDBSCAN∗ 将所有边界点都视为噪声点,不进行分配。

DBSCAN算法在实际中有很多应用。例如,Sengupta 等人用它对变量组进行聚类,然后从每个聚类中选择一个变量来构建监督分类模型,以区分帕金森病患者和健康个体;Baselice 等人则使用其改进版本对人类大脑的 MR 图像进行聚类。

2. 聚类数量的选择

确定数据集中“正确”的聚类数量是数据聚类中的一个重要问题。除了亲和传播算法外,大多数分区聚类算法都需要指定这个参数,而在分层聚类中,相当于确定切割树状图以得到聚类的高度。

“正确的聚类数量”这个概念往往比较模糊,它取决于用户期望的聚类分辨率。直观上,最优的聚类数量 K 应该在使用单个聚类对数据集进行最大压缩(K = 1)和为每个对象分配一个单独的聚类以实现聚类标准的最大性能(K = N)之间取得平衡。

以下是一些选

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值