复杂数据聚类、可视化及不完整知识推理的研究与实践
1. 复杂数据聚类与可视化
在处理大规模数据时,聚类是一种重要的分析手段。而使用基于树结构的索引(树型空间索引)可以提升聚类算法的性能,将整个算法的平均计算复杂度降低至O(n log n)。
1.1 OPTICS作为可视化方法
对于分析师而言,了解数据集结构的大致轮廓十分有用,他们会关注数据集中是否存在层次结构、分组之间的一致性水平,以及是否有占主导地位的组,或者数据结构是否更具同质性。然而,仅依据生成的聚类结果,分析师可能难以正确解释和解读结果,因此可视化工具在聚类结果的分析和解读过程中愈发重要。
要查看数据集的详细结构,可以根据OPTICS算法生成的顺序,为每个对象创建可达距离图,即可达性图。在可达性图中,聚类以山谷的形式呈现。山谷越窄,特定聚类中包含的对象越少;可达距离值越小,聚类越密集(更连贯)。
基于可达性图,能够轻松检测到聚类层次结构的存在。如图2所示,一系列小山谷包含在一个更深的山谷中,就表示存在聚类层次结构。在识别潜在的聚类包含情况时,需特别注意山谷应非常浅,因为可达距离值低意味着在给定顺序中另一个对象与前一个对象非常接近,对于浅山谷而言,这意味着两个聚类位置很近。如果这些浅山谷位于另一个非常深的山谷内,那么很可能是多个小而紧密的聚类包含在一个更大(密度小得多)的聚类中。
但对于现实世界中的复杂数据集,仅基于可达性图来识别聚类层次结构要困难得多。图3展示了一个关于蜂窝网络收发器操作的现实世界复杂数据的可达性图。由于可读性和MS Excel软件的限制,该图仅截取了前32000个对象(根据OPTICS算法的结果进行结构化)。从图中可以看出,在初始区域(对象
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



