2.1基于hash的方法
首先是基于哈希的算法。基于哈希的算法仍是将所有所有数据放入内存的方法。只要在计算的过程中能够满足算法对内存的大量需求,Apriori算法能够很好的执行。但在计算候选项集时特别是在计算候选项对C2时需要消耗大量内存。针对C2候选项对过大,一些算法提出用来减少C2的大小。这里我们首先考虑PCY算法,这个算法使用了在Apriori算法的第一步里大量没使用的内存。接着,我们考虑Multistage算法,这个算法使用PCY的技巧,但插入了额外的步骤来更多的减少C2的大小。
Park,Chen,Yu(PCY)算法[3]:
这个算法我们叫PCY算法,取自它的作者名字缩写。该算法关注在频繁项集挖掘中的第一步有许多内存空间没被利用的情况。如果有数以亿计的项,和以G计的内存,在使用关联规则的第一步里我们将会仅仅使用不到10%的内存空间,会有很多内存空闲。因为在第一步里,我们只需要两个表,一个用来保存项的名字到一个整数的映射,用这些整数值代表项,一个数组来计数这些整数,如图

PCY算法是一种基于哈希的关联规则挖掘方法,旨在减少内存消耗。它利用未被充分利用的内存空间创建哈希表,存储项对并计数,通过哈希桶的计数值判断频繁项对,从而降低第二步内存使用。在某些情况下,PCY算法能有效压缩内存需求,尤其适用于支持度阈值较高的场景。
最低0.47元/天 解锁文章
6553

被折叠的 条评论
为什么被折叠?



