项集分类聚类:数据挖掘新方法
1. 引言
随着科技的进步,大量的数据被产生出来,这使得提取数据的信息摘要变得尤为重要。为了满足这一需求,数据挖掘算法应运而生,如聚类、分类和关联规则等。近年来,生物学、医学和电子商务营销等领域的技术进步产生了新型数据集,这些数据集通常由特征和目标数值向量表示的元组组成。为了理解数据在向量方面相似的原因,将特征与每个数据组关联起来是很有帮助的。例如,在分子生物学中,将基因控制机制与具有相似表达模式的基因关联起来。这种新型数据促使我们开发项集分类聚类方法。
2. 动机示例
为了说明传统方法与项集分类聚类方法的区别,我们来看一个示例。假设有八个元组,每个元组包含特征项和目标属性。我们使用多维扩展的类间方差作为衡量标准,将元组划分为两个组,以优化该标准。
元组编号 | 特征项 | 目标属性 |
---|---|---|
1 | 特征1, 特征2 | 属性1, 属性2 |
2 | 特征2, 特征3 | 属性3, 属性4 |
… | … | … |
其中一种最大化类间方差的划分方式(S1)将元组分为两个簇。传统的聚类 - 分类方法试图找到能够准确分类这