数据挖掘与任务调度算法的研究与实践
1. BIDE - MR算法:并行挖掘频繁闭合序列
1.1 算法介绍
BIDE - MR是一种基于MapReduce的并行闭合序列模式挖掘算法,它充分利用了Apache Hadoop集群上的MapReduce范式。该算法在处理频繁闭合序列挖掘问题时,展现出了良好的并行化效率。
1.2 实验结果分析
实验中,对不同规模的测试数据进行了运行时间的测试,结果如下表所示:
| 记录数量 | 单数据节点运行时间(秒) | 2数据节点运行时间(秒) | 3数据节点运行时间(秒) | 4数据节点运行时间(秒) |
| ---- | ---- | ---- | ---- | ---- |
| 100,000 | 129 | 82 | 71 | 65 |
| 500,000 | 584 | 356 | 291 | 270 |
| 1,000,000 | 735 | 438 | 342 | 305 |
| 1,500,000 | 1077 | 623 | 481 | 416 |
| 2,000,000 | 1398 | 773 | 598 | 516 |
| 2,500,000 | 1928 | 1036 | 741 | 632 |
从表格数据可以看出,随着参与的数据节点数量增加,BIDE - MR的运行速度明显加快。这表明该算法具有很好的可扩展性,尤其在处理大规模测试数据时表现更为突出。
1.3 算法优势总结
BIDE - MR算法是首个基于MapReduce的闭合模式挖掘问题解决方案,在实际
超级会员免费看
订阅专栏 解锁全文
1133

被折叠的 条评论
为什么被折叠?



