一种用于发现带析取的频繁模式的关系型方法
在数据挖掘领域,发现频繁模式是一项重要任务,传统方法在处理复杂的现实世界数据时存在一定局限性。本文将介绍一种关系型数据挖掘方法,该方法可以发现考虑析取形式的频繁模式,通过重新评估不频繁的合取模式并利用背景知识扩展它们,为数据挖掘带来了新的思路。
问题的形式化表述
在关系型数据挖掘中,发现带析取的频繁模式问题可以形式化地表述为两个步骤:
1. 寻找不频繁模式集合 :给定演绎数据库 $D$ 的外延部分 $DE$,以及两个阈值 $minSup \in [0; 1]$ 和 $nSup \in [0; 1]$($nSup < minSup$),需要找出支持度在 $[nSup; minSup)$ 范围内的关系型不频繁模式集合 $IR$。
2. 生成析取模式 :给定不频繁模式集合 $IR$、演绎数据库 $D$ 的内涵部分 $DI$,以及两个阈值 $minSup$ 和 $\gamma \in [0; 1]$($\gamma$ 定义了析取中原子的最大相异度),需要找出频率超过 $minSup$ 且析取中原子的相异度不超过 $\gamma$ 的关系型析取模式。
挖掘不频繁合取模式
挖掘带析取的模式的基本思路是将不频繁的合取模式扩展为析取形式,直到超过阈值 $minSup$。每个合取模式 $P$ 都与一个统计参数 $sup(P, D)$($P$ 在 $D$ 上的支持度)相关联,它表示 $D$ 中被 $P$ 覆盖的分析单元的百分比。
分析单元 $D[s]$ 的定义如下:
[D[s] = is a(R(s))
超级会员免费看
订阅专栏 解锁全文
1061

被折叠的 条评论
为什么被折叠?



