数据挖掘中有趣模式的发现与评估
1. 数据采样方法
在数据挖掘中,从合适的分布进行采样十分关键。Cohen 等人依据基于哈希的分数进行采样,该分数用于估计两个项目之间的相关性。理论上,这种方法可扩展到任意大小的项目集,但需要对该估计进行非平凡的扩展。
Boley 等人提出了一个框架,允许直接根据模式的频率和/或基数等分数按比例采样项目集。不过,分数的“组成部分”越多,预处理的计算成本就越高。在后续论文中,他们改进了流程,通过形式化一个从过去耦合的马尔可夫链蒙特卡罗(MCMC)采样器,消除了预处理的需求。
Al Hassan 和 Zaki 提出了另一种方法,可直接对任何模式挖掘器的输出空间进行采样。他们在后续工作中讨论了 Origami 方法,用于采样具有代表性且与早期采样模式正交的模式。这种采样不仅与静态分布成比例,还考虑了早期采样结果,接近动态排名。
2. 绝对有趣性度量
2.1 瓦片挖掘
瓦片挖掘关注模式在数据中覆盖的区域。瓦片 $T = (X, Y)$ 由意图(所有项目的子集 $X ⊆ I$)和扩展(所有行的子集 $Y ⊆ R$)定义,使用 $q$ 计算由 $X × Y$ 确定的 $D$ 单元格的有趣性。
- 大瓦片挖掘 :最严格的任务是挖掘精确瓦片,即 $D$ 中仅包含 1 且满足最小面积阈值($area(T) = |X||Y| ≥ minarea$)的瓦片。最大瓦片是不能在不减小面积的情况下向 $X$ 或 $Y$ 添加元素的瓦片。由于面积不具有单调性,无法应用逐层算法。Geerts 等人给出了一组约束,可有效挖掘大瓦片,每个大瓦片都是闭频繁项目集,Xian
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



