频繁模式挖掘算法综述
1. FP - Tree 构建挑战与变体
随着数据库规模的不断增大,FP - Tree 的构建在运行时间和空间复杂度方面都面临着挑战。为应对这些挑战,出现了多种 FP - growth 方法的变体,主要可分为以下两类:
1.1 基于内存的变体
1.1.1 CT - PRO 算法
- 数据结构 :引入了一种名为 Compact FP - Tree(CFP - Tree)的新数据结构,它与 FP - Tree 存储相同的信息,但存储空间减少了 50%。
- 算法流程 :
- 将数据库划分为多个不相交的投影,每个投影用 CFP - Tree 表示。
- 对每个投影独立执行非递归的挖掘过程。
- 数据结构修改 :对原始 FP - Tree 的头表数据结构进行了重大修改。在 CFP - Tree 中,项标签映射为递增的整数序列,即头表的索引,头表存储每个项的支持度。
- 压缩操作 :通过累积相同的子树并将相关信息存储在最左分支来压缩原始 FP - Tree。头表包含指向 CFP - Tree 最左分支上每个节点的指针。
- 挖掘过程 :从头表中最不频繁项的指针开始挖掘,早期修剪大量节点,缩小树结构。通过跟随指向相同项的指针,构建以相应项结尾的所有事务的投影,即局部 CFP - Tree,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



