16、0 - 1 数据中的几何和组合瓷砖模型

0 - 1 数据中的几何和组合瓷砖模型

1. 引言

在数据挖掘领域,对大型 0 - 1 数据集的分析至关重要。目前已有多种技术用于分析和理解二进制数据,如关联规则和聚类。然而,关联规则存在相关性定义依赖阈值且结果输出量大难以解释的问题;聚类算法则可能忽略数据维度子集间的相关性,尽管子空间聚类方法对此有所改进。

数据挖掘的关键在于为数据找到合适且易于理解的模型。对于 0 - 1 数据集,核心问题可归结为“1 在哪里出现”,即需要一个简单、易懂且相对准确的描述,说明数据中 1(或 0)的出现位置。

为解决这一问题,我们引入了分层瓷砖(hierarchical tiles)这一简单的概率模型。基本瓷砖指定数据集中行的子集 X 和列的子集 Y,形成一个矩形区域,并给出该区域内单元格出现 1 的概率。分层瓷砖由基本瓷砖和一组异常瓷砖组成,异常瓷砖定义在基本瓷砖的子矩形区域上。

瓷砖分为几何瓷砖和组合瓷砖。若行和列有序,且 X 和 Y 是这些有序序列中的连续元素范围,则为几何瓷砖;否则为组合瓷砖。组合瓷砖的概念更强,但寻找最佳组合瓷砖比寻找最佳几何瓷砖困难得多。

本文首先给出了一种寻找几何瓷砖的简单随机算法,并证明该算法能以高概率找到数据中的瓷砖。接着探讨了如何使用谱排序方法找到合适的排序,将组合瓷砖转化为几何瓷砖。最后通过实际数据验证了算法的性能。

2. 问题描述

问题的输入是一个 0 - 1 数据矩阵 A,包含行集合 R 和列集合 C。矩阵 A 中第 i 行第 j 列的元素记为 (A_{ij})。

2.1 矩形的定义
  • 组合矩形 <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值