基于海量数据的关联规则挖掘（五）

最新推荐文章于 2025-01-22 22:38:09 发布

原创

最新推荐文章于 2025-01-22 22:38:09 发布 · 2.3k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

PCY算法是一种基于哈希的关联规则挖掘方法，旨在减少内存消耗。它利用未被充分利用的内存空间创建哈希表，存储项对并计数，通过哈希桶的计数值判断频繁项对，从而降低第二步内存使用。在某些情况下，PCY算法能有效压缩内存需求，尤其适用于支持度阈值较高的场景。

2.1基于hash的方法

首先是基于哈希的算法。基于哈希的算法仍是将所有所有数据放入内存的方法。只要在计算的过程中能够满足算法对内存的大量需求，Apriori算法能够很好的执行。但在计算候选项集时特别是在计算候选项对C2时需要消耗大量内存。针对C2候选项对过大，一些算法提出用来减少C2的大小。这里我们首先考虑PCY算法，这个算法使用了在Apriori算法的第一步里大量没使用的内存。接着，我们考虑Multistage算法，这个算法使用PCY的技巧，但插入了额外的步骤来更多的减少C2的大小。

Park，Chen，Yu（PCY）算法[3]：

这个算法我们叫PCY算法，取自它的作者名字缩写。该算法关注在频繁项集挖掘中的第一步有许多内存空间没被利用的情况。如果有数以亿计的项，和以G计的内存，在使用关联规则的第一步里我们将会仅仅使用不到10%的内存空间，会有很多内存空闲。因为在第一步里，我们只需要两个表，一个用来保存项的名字到一个整数的映射，用这些整数值代表项，一个数组来计数这些整数，如图

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。