HyDensity:用于自动聚类评估的超体积密度指标
在聚类分析中,准确评估聚类结果的质量至关重要。本文将介绍一种名为HyDensity的超体积密度指标,以及相关的评估方法,并通过学术示例和实际工业数据集进行验证。
1. 指标概述
- HyDensity :基于物理学中相对密度的定义,即物体的比质量与其体积之比。在多维空间中,使用超体积理论,将其定义为数据实例数量与其相关体积(包含所有数据的最小超球体体积)的比值。
- 其他指标 :与平均标准差(AvStd)和轮廓系数(Silhouette Coefficients)进行对比。
- HyDAS :一种基于上述三个指标的混合量化器,用于为数据组打分,代表其质量和意义。
2. 学术示例验证
首先,将这些指标应用于包含多个3D高斯分布的学术示例,以测试其代表性和可靠性。使用BSOM(一种由多个自组织映射投影到一个最终映射的聚类技术)对数据库进行分区,结果表明这些指标在表征聚类结果时具有意义,能够突出正确和有问题的聚类。其中,AvStd有时会出错,而轮廓系数和HyDensity很少出错。
3. 实际工业数据集测试
接下来,将这些指标应用于实际工业数据,数据来自参与HyperCOG项目的合作伙伴。具体步骤如下:
1. 数据获取 :一家化学公司Solvay提供了包含200个传感器的数据库,每个传感器有105,120个样本(每分钟记录一次)。
2.