频繁项集查询并发处理与通用数据挖掘框架探索
1. 频繁项集查询并发处理策略
在频繁项集查询并发处理方面,以往研究多围绕Apriori算法,而此次聚焦于FP - growth算法。为其考虑并实验评估了三种多查询处理策略:
- Mine Merge :最初为Apriori算法提出,将原始查询集转换为对非重叠数据集的中间查询集。
- Common Building :受Apriori的Common Counting启发,基于查询在数据库共享部分执行的数据集扫描集成,为FP - growth算法制定。
- Common FP - tree :全新策略,旨在集成查询使用的内存结构,在FP - growth算法中实现。
实验表明,当查询数据集存在重叠时,Common Building相比顺序处理可减少总体处理时间,这与Apriori的Common Counting情况相同。而Mine Merge要在FP - growth算法中取得成功,相比Apriori需要查询之间有更显著的重叠。对于Common FP - tree,若查询数据集重叠超过30% - 50%(取决于数据集性质),其性能优于Common Building,且在所有情况下内存需求更小,适合高度重叠查询和内存有限的环境。对于重叠不显著的查询,Common Building更合适。
| 策略 | 适用场景 | 优势 |
|---|---|---|
超级会员免费看
订阅专栏 解锁全文
876

被折叠的 条评论
为什么被折叠?



