大数据频繁模式挖掘与序列模式挖掘全解析
1. 大数据频繁模式挖掘
在大数据时代,频繁模式挖掘面临着新的挑战和机遇。传统的串行算法在处理大规模数据时往往力不从心,因此并行算法成为了解决问题的关键。
在并行算法设计中,有三个关键挑战:
- 内存可扩展性 :确保算法在处理大规模数据时,内存使用不会成为瓶颈。
- 工作分区 :合理地将任务分配到各个处理单元,以提高整体效率。
- 负载均衡 :避免某些处理单元过度负载,而其他单元闲置。
1.1 并行算法分类及挑战
并行算法主要分为基于候选生成的算法和基于模式增长的算法。基于候选生成的算法中,内存可扩展性通常是最难克服的障碍;而基于模式增长方法的并行算法,负载均衡则是高效并行执行的关键考虑因素。
例如,在一些并行候选生成算法中,由于需要生成大量的候选模式,内存需求会急剧增加,导致算法在处理大数据时性能下降。而对于模式增长算法,如果负载不均衡,部分处理单元可能会提前完成任务,而其他单元仍在忙碌,从而影响整体效率。
1.2 动态负载均衡案例
Di Fatta和Berthold创建了一个使用消息传递的分布式MoFa实现,通过接收方发起的工作请求实现动态负载均衡。具体步骤如下:
1. 每个进程维护一个按当前工作单元开始时间排序的其他进程列表。
2. 请求工作的进程从列表中随机选择,更倾向于选择在当前工作单元上花费更多时间的进程。
3. 被请求工作的进程根据堆栈大小、支持度和当前测试模式的分支因
超级会员免费看
订阅专栏 解锁全文
1867

被折叠的 条评论
为什么被折叠?



