数据聚类算法:从密度到图论的全面解析
1. 密度聚类算法
密度聚类算法在处理具有高斯分布的数据时,往往不如像 EM 聚类这样能精确建模此类数据的方法。不过,也有一些更复杂的密度聚类方法:
- DENCLUE :使用核密度估计的梯度上升来创建聚类的基本单元。
- DeLiClu :于 2006 年提出,旨在完全消除 ε 参数。它结合了单链接聚类和 OPTICS 的思想,并通过使用 R - 树索引,在性能上优于 OPTICS。
- LDBSCAN :2007 年提出,结合了局部离群点检测和 DBSCAN 的思想,用于处理不同密度的聚类。它利用基于 k - 最近邻的局部离群因子(LOF)来检测噪声点和离群点,能够发现数据空间不同区域中存在的不同密度的聚类。但它需要用户输入四个对聚类结果有显著影响且难以确定的参数。
2. 图聚类算法
图聚类算法可以将几乎任何类型的数据转换为相似性图进行分析。这种转换是通过邻域图来实现的,具体步骤如下:
1. 为数据集中的每个对象定义一个节点,形成包含 N 个节点的节点集,其中节点 i 对应对象 xi。
2. 如果对象 xi 和 xj 之间的距离 dist(xi, xj) 小于特定阈值,则在它们之间存在一条边。更好的方法是计算 xi 和 xj 的 k - 最近邻,当其中一个是另一个的 k - 最近邻时添加一条边。边 (i, j) 的权重 wij 等于对象 xi 和 xj 之间的距离,权重越大表示差异越大。
构建邻域图后,可以使用许多聚类算法对邻域图中的节点进行聚类,得到的
超级会员免费看
订阅专栏 解锁全文
1769

被折叠的 条评论
为什么被折叠?



