EFIM-Closed:快速且内存高效的闭高效用项集挖掘算法
1. 效用箱优化策略
效用箱是一种紧凑的数据结构,大小为 $O(|I|)$。为更高效地利用效用箱,提出了以下三种优化策略:
1. 项重命名 :将数据库中的所有项重命名为连续整数。在效用箱数组 $U$ 中,项 $i$ 的效用箱 $U[i]$ 存储在数组的第 $i$ 个位置,这样可以在 $O(1)$ 时间内访问项的效用箱。
2. 数组重用 :通过在每次使用前将效用箱数组重新初始化为零值,可以多次重用同一个数组。这避免了创建多个数组,从而大大减少了内存使用。在实现中,仅创建四个效用箱数组,分别用于计算 TWU、子树效用、局部效用和支持度。
3. 部分重置 :在重新初始化效用箱数组以计算项集 $\alpha$ 的单项扩展的子树效用或局部效用时,仅将与 $E(\alpha)$ 中的项对应的效用箱重置为 0,以加快效用箱数组的重新初始化。
2. 非闭高效用项集的剪枝技术
为了找到闭高效用项集(CHUIs),避免了将所有已找到的高效用项集(HUIs)存储在内存中并进行比较的朴素方法,因为这种方法在模式数量大时会消耗大量内存和时间。提出了新的检查机制,基于向前扩展检查和向后扩展检查:
- 向前/向后扩展定义 :设项集 $\beta = \alpha \cup {i}$。如果存在项 $z \gt i$ 使得 $z \in E(\beta)$ 且 $sup(\alpha \cup {z}) = sup(\beta)$,则项集 $\beta$ 具有
超级会员免费看
订阅专栏 解锁全文
669

被折叠的 条评论
为什么被折叠?



