基于快速树的不确定数据频繁项集挖掘
在处理不确定数据时,频繁项集挖掘是一项重要的任务。本文将介绍两种相关算法:CUF - growth 和 CUF - growth*,并通过实验对比它们与现有算法的性能。
1. CUF - growth 算法
CUF - growth 算法用于从 CUF - tree 中挖掘频繁项集,它处理的是事务上限(transaction caps),而非像 FP - growth 算法那样处理出现频率。其基本操作是构建投影数据库并递归挖掘频繁项集的扩展。
1.1 相关性质和引理
- 性质 1 :要计算所有后缀为 x 的潜在频繁项集,只需累积 CUF - tree 中标记为 x 的节点的前缀子路径。路径上每个节点的事务上限与路径中对应节点 x 的事务上限相同。
- 引理 4 :设 X 是数据库 DB 中的一个 k - 项集(k ≥ 1),DBX 是 X - 投影数据库,Y 是 DBX 中的一个项集。那么,DB 中 X ∪ Y 的预期支持上限(expSupCap(X ∪ Y))等同于 DBX 中事务的 Y 的预期支持上限(expSupCap(Y))。
1.2 算法流程
以下是 CUF - growth 算法的伪代码:
Algorithm 2: Mining of “frequent” itemsets by CUF - growth
Input: A CUF - tree capturin
超级会员免费看
订阅专栏 解锁全文
1572

被折叠的 条评论
为什么被折叠?



