聚类算法与稳定性评估:理论与实践
1. 引言
在数据分析领域,聚类算法是用于发现数据库中对象之间关系的重要技术。其目标是将数据划分为多个组,使得同一组内的对象比不同组的对象更相似。然而,聚类过程中存在两个关键问题:一是选择合适的聚类模型;二是确定数据集中“自然”的分组数量,尤其是在没有可用聚类模型的情况下,后者更具挑战性。
目前,有多种方法可用于确定聚类数量,这些方法使用不同的有效性指标。大多数方法利用簇内变异性和“肘部”现象,还有一些方法提出了统计指标,如间隙统计量。此外,还有一种基于聚类稳定性的替代方法,即评估聚类结果相对于数据样本变化的稳定性。不过,现有的基于聚类稳定性的方法存在一些缺点,如需要设置参数或计算负担较大。
本文将介绍一种基于信息理论的聚类稳定性评估策略,旨在避免现有方法的缺点,并适用于任何聚类模型和算法。
2. 受限层次聚类算法
2.1 算法概述
介绍了一种受限层次聚类算法,其主要约束是仅考虑相邻簇作为合并候选。同时定义了一个聚合指数,该指数考虑了相邻对象。
2.2 实验结果
通过实验展示了该受限算法在不同情况下的表现。比较了不同邻域关系和不同分区大小下的结果,并将经典平均链接方法作为参考。结果表明,该算法在运行时间上相对于经典平均链接方法有显著节省,且结果与预期分区相符。
2.3 未来工作
目前正在研究从树状图中自动获取聚类数量的不同启发式方法的可行性。此外,计划纳入有关潜在边界位置的额外信息,例如通过对图像应用边缘检测器来获取。
超级会员免费看
订阅专栏 解锁全文
1837

被折叠的 条评论
为什么被折叠?



