高效的Map - Reduce框架挖掘周期性频繁模式及复杂大数据分析
周期性频繁模式挖掘的Map - Reduce框架
在周期性频繁模式(Periodic Frequent Patterns, PFP)挖掘中,传统方法存在效率问题。而提出的基于Map - Reduce的并行挖掘方法有显著改进。
在挖掘过程中,使用哈希函数 rank[it]%numOfPartitions 来确定工作机器负责计算的后缀项(其中 it 是选定的后缀项)。只有当哈希函数的输出等于机器的分区ID时,才会对后缀项(按支持度递增顺序)进行挖掘。在现有方法中,如对‘d’的挖掘要在‘a’的挖掘完成后进行,而新方法中这些过程可以并行进行,从而减少了提取PFPs的时间。
以下是PPF - treeConstructionMining算法:
# PPF-treeConstructionMining (TDB, PPF-list)
# Map阶段
def Map(key = None, value = TDBi):
for tcur in TDBi:
# 过滤并排序tcur中不在PPF-list的元素
filtered_sorted_tcur = filter_and_sort(tcur, PPF_list)
for j in range(len(filtered_sorted_tcur) - 1, -1, -1):
partition_id = getPartition(filtered_sorted
超级会员免费看
订阅专栏 解锁全文
41

被折叠的 条评论
为什么被折叠?



