0 - 1 数据中的几何和组合瓷砖模型
1. 引言
在数据挖掘领域,对大型 0 - 1 数据集的分析至关重要。目前已有多种技术用于分析和理解二进制数据,如关联规则和聚类。然而,关联规则存在相关性定义依赖阈值且结果输出量大难以解释的问题;聚类算法则可能忽略数据维度子集间的相关性,尽管子空间聚类方法对此有所改进。
数据挖掘的关键在于为数据找到合适且易于理解的模型。对于 0 - 1 数据集,核心问题可归结为“1 在哪里出现”,即需要一个简单、易懂且相对准确的描述,说明数据中 1(或 0)的出现位置。
为解决这一问题,我们引入了分层瓷砖(hierarchical tiles)这一简单的概率模型。基本瓷砖指定数据集中行的子集 X 和列的子集 Y,形成一个矩形区域,并给出该区域内单元格出现 1 的概率。分层瓷砖由基本瓷砖和一组异常瓷砖组成,异常瓷砖定义在基本瓷砖的子矩形区域上。
瓷砖分为几何瓷砖和组合瓷砖。若行和列有序,且 X 和 Y 是这些有序序列中的连续元素范围,则为几何瓷砖;否则为组合瓷砖。组合瓷砖的概念更强,但寻找最佳组合瓷砖比寻找最佳几何瓷砖困难得多。
本文首先给出了一种寻找几何瓷砖的简单随机算法,并证明该算法能以高概率找到数据中的瓷砖。接着探讨了如何使用谱排序方法找到合适的排序,将组合瓷砖转化为几何瓷砖。最后通过实际数据验证了算法的性能。
2. 问题描述
问题的输入是一个 0 - 1 数据矩阵 A,包含行集合 R 和列集合 C。矩阵 A 中第 i 行第 j 列的元素记为 (A_{ij})。
2.1 矩形的定义
- 组合矩形 <