大数据频繁模式挖掘:序列与图挖掘算法解析
在大数据频繁模式挖掘领域,频繁子序列挖掘和频繁图挖掘是两个重要的研究方向。下面将详细介绍这两个方向的相关算法及技术。
频繁子序列挖掘
在频繁子序列挖掘中,挖掘每个频繁子序列成为一项任务。在挖掘时间估计期间,会计算这些频繁序列的投影数据库。任务分配方式与 Par - FP 算法类似。不过,该算法的串行采样组件平均占串行挖掘时间的 1.1%,这限制了随着进程数量增加时的加速潜力。
在间隙约束频率挖掘问题中,与一般序列挖掘问题不同,不能从投影序列中移除不频繁项。Miliaraki 等人在 MG - FSM 中基于 w - 等价性概念提出了几种压缩投影数据库的方法。在 MapReduce 作业的 Map 阶段,会为数据集中所有 1 - 长度频繁序列构建并压缩投影数据库。在将投影数据库传输到归约器之前,使用游程编码和可变字节编码来减小其大小,这显著提升了性能。在 MapReduce 作业的 Reduce 阶段,使用串行算法来挖掘序列数据库的独立分区。
动态负载均衡在频繁子序列挖掘中也非常重要。它旨在在进程完成分配的任务时,根据需要重新分配工作,使所有进程总体上分配到等量的工作。以下是几种动态负载均衡方案:
- Zaki 的方案 :在 pSPADE 中扩展了静态任务分区方案(SLB),形成任务队列。在类间动态负载均衡(CDLB)方案中,进程完成当前工作后,会从队列中一次选取一个新任务。递归动态负载均衡(RDLB)方案则利用类间和类内并行性,允许进程与空闲进程共享工作。实验表明,RDLB 在三种方案中表现最佳。
- Guralnik 和 Karypis 的方
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



