变量的拓扑聚类:原理与应用
在数据分析领域,对对象(个体或变量)进行聚类是探索多元数据的常用方法。常见的无监督聚类策略有层次升序聚类(HAC)和 k - 均值划分,它们能将数据集中的相似对象分组,形成同质群体。本文将介绍一种名为拓扑变量聚类(TCV)的新方法,它基于邻域图的概念,对变量进行拓扑层次聚类,可用于降维和变量选择。
1. 引言
变量聚类除了经典的对象聚类方法外,还有一些专门针对变量聚类的方法,如在 SAS 软件中实现的 Varclus 分类程序、ClustOfVar 方法、CVLC 方法和 Clustatis 方法等,但目前尚无在拓扑背景下的相关方法。
变量聚类可视为一种降维方法,类似于因子分析。其目的是将强相关的变量分组,形成变量类,每个变量类可用一个单一的定量综合变量来概括。这有助于理解数据的潜在结构、总结数据信息或检测冗余,从而减少后续处理中的变量数量。
变量聚类的目标是获得相关且冗余的变量类,为此开发了特定的算法。创建问卷中变量分组的轮廓时,主要有两种方法:非层次聚类(如 k - 均值或动态聚类)和层次聚类(升序或降序)。
相似性度量在数据分析中起着重要作用,任何涉及对象结构化、聚类或分类的操作结果都强烈依赖于所选的接近度度量。通常,变量围绕特定主题具有同质性,与个体聚类不同,变量聚类可以处理来自多个不同主题的多组同质变量。所选分区的变量簇可视为变量选择,每个变量簇可通过因子分析等方法单独合成。
TCV 可作为一种降维方法,分区中每个相关变量类可用该类变量的综合变量表示;也可作为变量选择方法,每个类可用该类的重要变量表示。本研究提出的拓扑层次变量聚类方法,对变量类型无限制,包括定量、定性或两者混合。 <
超级会员免费看
订阅专栏 解锁全文
1286

被折叠的 条评论
为什么被折叠?



