非概率聚类方法全解析
1. DBSCAN算法及其改进
DBSCAN算法是一种基于密度的聚类算法。在给定参数 ε = 1,minPts = 4 以及欧几里得距离的情况下,如果从点 x0 出发,xi 和 xj 是密度可达的,那么 xi 和 xj 就是密度相连的。该算法会从一个核心点开始创建新的聚类,将其邻域内的所有点都分配到这个聚类中。若在邻域内发现了额外的核心点,搜索范围会扩展到该核心点的邻域,不断重复这个扩展过程,直到没有更多的核心点为止,此时该聚类完成。处理完所有对象后,未被分配到任何聚类的对象被视为噪声点。
不过,DBSCAN算法存在一个问题,即边界点可能从多个聚类的核心点都是密度可达的,算法会根据数据对象在存储中的顺序将这些点分配到第一个处理的聚类中。为了解决这个问题,HDBSCAN∗ 将所有边界点都视为噪声点,不进行分配。
DBSCAN算法在实际中有很多应用。例如,Sengupta 等人用它对变量组进行聚类,然后从每个聚类中选择一个变量来构建监督分类模型,以区分帕金森病患者和健康个体;Baselice 等人则使用其改进版本对人类大脑的 MR 图像进行聚类。
2. 聚类数量的选择
确定数据集中“正确”的聚类数量是数据聚类中的一个重要问题。除了亲和传播算法外,大多数分区聚类算法都需要指定这个参数,而在分层聚类中,相当于确定切割树状图以得到聚类的高度。
“正确的聚类数量”这个概念往往比较模糊,它取决于用户期望的聚类分辨率。直观上,最优的聚类数量 K 应该在使用单个聚类对数据集进行最大压缩(K = 1)和为每个对象分配一个单独的聚类以实现聚类标准的最大性能(K = N)之间取得平衡。
以下是一些选
非概率聚类方法详解
超级会员免费看
订阅专栏 解锁全文
806

被折叠的 条评论
为什么被折叠?



