基于海量数据的关联规则挖掘（七）

最新推荐文章于 2025-01-22 22:38:09 发布

原创最新推荐文章于 2025-01-22 22:38:09 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

本文深入探讨了Multihash算法，一种在一步中使用两个哈希算法和两个分离的哈希表的方法，旨在提高数据处理效率。通过对比与传统PCY算法的区别，阐述了在特定场景下采用Multihash算法的优势，包括使用多个哈希表的第一步处理和第二步将哈希表转换为bitmap的过程。此外，文章还讨论了Multihash算法的灵活性以及如何在不同数量的哈希表中进行操作，同时分析了潜在的风险。

Multihash 算法

有时我们从multistage算法的额外的步骤中获取好处。这个PCY的变形叫做Multihash[7]算法。不同于在连续的两个步骤中使用两个哈希表，该算法在一步中使用两个哈希算法和两个分离的哈希表。如表6.7所述。

在同一步里使用两个hash表的危险是每个哈希表仅有PCY算法的一半的桶。只要PCY算法的桶的平均计数比支持度阈值低，我们就可以预见大部分的桶都是非频繁桶，并可以在这两个只有一半大小的哈希表上操作完成。在这种情形下，我们选择multihash方法。

对Multihash的第二步，每个hash表也会被转换为一个bitmap。注意，在图6.7中，两个bitmap占据的空间只有PCY算法的一个bitmap的大小。项对{i，j}被放入候选集C2的条件同multistage：i和j必须是频繁的，且{i，j}对在两个哈希表中必须被hash到频繁桶。

正如Multistage算法，在Multihash算法中，我们也可以不用限制只使用两个hash表。在Multihash算法的第一步中，我们也可以使用多个hash表。不过风险是桶的平均计数会超过阈值。在这种情况下，这里会只有很少的非频繁桶在每个hash表中。即使这样，一个项对必须被hash到每个hash表的频繁桶中并计数，并且，我们会发现，一个非频繁项对作为一个候选的概率将上升，而不是下降，无利反而有害。