火星地形聚类新颖性量化研究
1. 引言
聚类算法在揭示无标签数据的结构方面非常有用,其目标是发现数据对象如何自然分组。研究涵盖多个主题,如聚类表示、准则函数和相似性度量等。然而,在实际应用中,发现数据对象的自然分组往往用处有限,还需要根据已知分类评估聚类结果的质量。
本文提出了一种在已知对象分类存在的假设下评估一组聚类新颖性的方法。以往大多数指标输出单个值来表示已知类和聚类所诱导的分区之间的匹配程度,但这些指标无法识别单个聚类的潜在新颖性,且缺乏概率模型来推断类 - 聚类对的相交程度。本文的目标是通过单独查看每个聚类,根据其与所有类的重叠或相交程度对类进行排名,从而识别新颖聚类的存在。
研究将该方法应用于包含火星轨道激光高度计(MOLA)生成的火星景观图像的数据库。通过对排水网络的计算分析来表征每个地形,并将其表示为实向量。应用概率聚类算法将地形分组为聚类,并使用基于地质单元的已知火星表面分类来评估输出聚类的新颖性。
2. 预备知识:聚类验证
假设存在一个对象数据集,每个对象由一个属性向量表征。聚类算法将数据集划分为相互排斥且详尽的子集,每个子集代表一个聚类。聚类算法的目标是使同一聚类中对象之间的平均距离(即平均内部距离)显著小于不同聚类中对象之间的距离(即平均外部距离)。
同时,假设存在由自然分类方案诱导的不同的相互排斥且详尽的对象分区。研究的目标是对这两个分区进行客观比较。
2.1 比较类和聚类的指标
有几种方法可用于评估预定义类和新聚类之间的匹配程度,根据所采用的统计类型可分为以下几类:
- 2×2 列联表 :统计性质的