30、关联规则挖掘中的内存考虑与元模式发现

julia4scientist

于 2025-10-10 11:06:05 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：数据仓库与知识发现探秘文章标签：关联规则挖掘深度优先分区算法 DFPA

本文链接：https://blog.youkuaiyun.com/julia4scientist/article/details/154420870

数据仓库与知识发现探秘专栏收录该内容

56 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

关联规则挖掘中的内存考虑与元模式发现

深度优先分区算法（DFPA）

在关联规则挖掘中，为了更好地利用内存，提出了深度优先分区算法（DFPA）。以下是相关代码：

14)
while
mem(B D  (M L [ T L [ P L k)) <= m
do
begin
15)
TRIE = TRIE [ (B D  (M L [ T L [ P L k));
16)
k++;
end
17)
until TRIE does not change
18)
return L = M L [ T L;

该算法通过深度优先而非广度优先的方式处理前缀树，直到主内存满为止。它在每次扫描时通过对虚拟前缀树进行深度优先遍历来选择候选集。

性能结果比较

为了评估不同算法的性能，我们比较了五种不同的算法：DFPA、BFP A、SCP A、Apriori 和 AprioriMem。实验使用了一个合成数据集 D100K.T10.I4，该数据集包含 100K 条交易记录，平均交易大小为 10，大型项集的平均大小为 4。设置了两个最小支持度（0.5% 和 0.1%），并针对每个最小支持度使用了两种内存大小（500k 和 50k）。

在运行算法之前，通过采样获得近似的大型项集。为了展示算法在近似集不准确时的性能，使用了较小的样本大小（25K）和相同的最小支持度。我们考察了三个指标：扫描次数、候选集数量和比较次数。