聚类验证与降维技术解析
聚类验证
聚类验证是一项具有挑战性的任务,因为在很多情况下,我们缺乏用于判断聚类结果的先验或领域知识,这一点从聚类所基于的无标签数据中就能直接体现出来。为了量化和评估聚类的有效性,人们开发了各种度量方法,主要分为外部标准和内部标准两大类。
外部标准
外部标准是利用在聚类分析中未使用的额外外部信息来评估聚类结果。这些信息是数据点的标签,可作为比较的黄金标准。这些标签可能是问题的正确解决方案,也可能是由人类专家提供的最佳分配。例如,在生物医学数据集中,病理学家通过对肿瘤组织形态进行组织学分析为肿瘤样本测量数据提供标签。
假设聚类分析将 n 个数据点划分为 C = {C1, …, CK},其中 K 是聚类的总数,每个聚类 Cm 包含属于该聚类的数据点。参考信息表示为 R = {R1, …, RL},聚类数量可能与 C 不同(K ≠ L)。
通过比较数据点对,可以确定它们是否被正确地放置在同一个聚类中,具体定义如下:
- 若 xi, xj ∈ Rm 且 xi, xj ∈ Cn,则称该数据点对为真正例(TP)。
- 若 xi ∈ Rm,xj ∈ Rm′ 且 xi ∈ Cn,xj ∈ Cn′,则称该数据点对为真反例(TN)。
- 若 xi ∈ Rm,xj ∈ Rm′ 且 xi, xj ∈ Cn,则称该数据点对为假正例(FP)。
- 若 xi, xj ∈ Rm 且 xi ∈ Cn,xj ∈ Cn′,则称该数据点对为假反例(FN)。
基于这四种错误情况,可以使用多种统计度量,在聚类分析中常用的指标如下:
1. 兰德指数(Rand Index)
超级会员免费看
订阅专栏 解锁全文
1185

被折叠的 条评论
为什么被折叠?



