16、高效的Map - Reduce框架挖掘周期性频繁模式及复杂大数据分析

web99

于 2025-07-14 10:01:25 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据分析与知识发现：前沿技术与应用文章标签： MapReduce 周期性频繁模式 PFP

本文链接：https://blog.youkuaiyun.com/web99/article/details/150598106

大数据分析与知识发现：前沿技术与应用专栏收录该内容

55 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

高效的Map - Reduce框架挖掘周期性频繁模式及复杂大数据分析

周期性频繁模式挖掘的Map - Reduce框架

在周期性频繁模式（Periodic Frequent Patterns, PFP）挖掘中，传统方法存在效率问题。而提出的基于Map - Reduce的并行挖掘方法有显著改进。

在挖掘过程中，使用哈希函数 rank[it]%numOfPartitions 来确定工作机器负责计算的后缀项（其中 it 是选定的后缀项）。只有当哈希函数的输出等于机器的分区ID时，才会对后缀项（按支持度递增顺序）进行挖掘。在现有方法中，如对‘d’的挖掘要在‘a’的挖掘完成后进行，而新方法中这些过程可以并行进行，从而减少了提取PFPs的时间。

以下是PPF - treeConstructionMining算法：

# PPF-treeConstructionMining (TDB, PPF-list)
# Map阶段
def Map(key = None, value = TDBi):
    for tcur in TDBi:
        # 过滤并排序tcur中不在PPF-list的元素
        filtered_sorted_tcur = filter_and_sort(tcur, PPF_list)
        for j in range(len(filtered_sorted_tcur) - 1, -1, -1):
            partition_id = getPartition(filtered_sorted