基于HOV3的预测性可视化聚类分析方法
1. 引言
预测性知识发现是一种重要的知识获取方法,它利用现有知识进行推导、推理和建立预测,并验证这些预测的有效性。在数据挖掘的聚类过程中,也会用到这种方法。聚类是一种无监督学习过程,旨在发现数据集中的组模式,是数据挖掘中广泛应用的技术。然而,现有的大多数聚类算法在处理超大型和高维数据库中任意形状的数据分布时表现不佳,且基于统计的聚类验证方法计算成本过高,限制了聚类算法的实际应用。
可视化在高维数据分析中非常强大和有效,它可以揭示趋势、突出异常值、显示聚类和暴露数据差距。许多研究致力于可视化数据库的聚类结构,但大多数只关注信息呈现,而没有研究数据行为如何随算法参数的变化而变化。
本文采用HOV3(通过可视化进行面向假设的验证和确认)将高维数据投影到二维复空间。通过对研究数据应用预测性度量(量化的领域知识),用户可以精确检测分组信息,并将聚类模式作为预测类,验证聚类子集和未聚类子集之间的一致性。
2. 背景
2.1 可视化聚类分析
聚类分析包括聚类和聚类验证两个主要方面。聚类的目标是将对象识别为组(即聚类),使得聚类内对象的相似度高,而聚类间的相似度低。已经提出了数百种聚类算法,但由于没有适用于所有应用的通用聚类算法,评估聚类结果的质量成为聚类分析的关键问题,即聚类验证。聚类验证旨在评估聚类结果的质量,并为特定应用找到合适的聚类方案。
用户对聚类数量的初始估计对于选择聚类算法的参数很重要,同时,用户对聚类分布的清晰理解有助于评估聚类结果的质量。用户对数据分布的视觉感知在这些处理阶段起着关键作用。使用可视化技术探索和理解高维数据集正成为将人类智能与当今强大的
超级会员免费看
订阅专栏 解锁全文
347

被折叠的 条评论
为什么被折叠?



