关联规则挖掘中的内存考虑与元模式发现
深度优先分区算法(DFPA)
在关联规则挖掘中,为了更好地利用内存,提出了深度优先分区算法(DFPA)。以下是相关代码:
14)
while
mem(B D (M L [ T L [ P L k)) <= m
do
begin
15)
TRIE = TRIE [ (B D (M L [ T L [ P L k));
16)
k++;
end
17)
until TRIE does not change
18)
return L = M L [ T L;
该算法通过深度优先而非广度优先的方式处理前缀树,直到主内存满为止。它在每次扫描时通过对虚拟前缀树进行深度优先遍历来选择候选集。
性能结果比较
为了评估不同算法的性能,我们比较了五种不同的算法:DFPA、BFP A、SCP A、Apriori 和 AprioriMem。实验使用了一个合成数据集 D100K.T10.I4,该数据集包含 100K 条交易记录,平均交易大小为 10,大型项集的平均大小为 4。设置了两个最小支持度(0.5% 和 0.1%),并针对每个最小支持度使用了两种内存大小(500k 和 50k)。
在运行算法之前,通过采样获得近似的大型项集。为了展示算法在近似集不准确时的性能,使用了较小的样本大小(25K)和相同的最小支持度。我们考察了三个指标:扫描次数、候选集数量和比较次数。
扫描次数
| 最小支持度 | 最大内存 < |
|---|
超级会员免费看
订阅专栏 解锁全文

1139

被折叠的 条评论
为什么被折叠?



