32、大数据频繁模式挖掘：序列与图挖掘算法解析

最新推荐文章于 2025-12-01 18:34:51 发布

深海孤鲸134

最新推荐文章于 2025-12-01 18:34:51 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：挖掘数据背后的模式文章标签：大数据频繁模式挖掘频繁子序列挖掘

本文链接：https://blog.youkuaiyun.com/grafana6viz/article/details/154889772

挖掘数据背后的模式专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

大数据频繁模式挖掘：序列与图挖掘算法解析

在大数据频繁模式挖掘领域，频繁子序列挖掘和频繁图挖掘是两个重要的研究方向。下面将详细介绍这两个方向的相关算法及技术。

频繁子序列挖掘

在频繁子序列挖掘中，挖掘每个频繁子序列成为一项任务。在挖掘时间估计期间，会计算这些频繁序列的投影数据库。任务分配方式与 Par - FP 算法类似。不过，该算法的串行采样组件平均占串行挖掘时间的 1.1%，这限制了随着进程数量增加时的加速潜力。

在间隙约束频率挖掘问题中，与一般序列挖掘问题不同，不能从投影序列中移除不频繁项。Miliaraki 等人在 MG - FSM 中基于 w - 等价性概念提出了几种压缩投影数据库的方法。在 MapReduce 作业的 Map 阶段，会为数据集中所有 1 - 长度频繁序列构建并压缩投影数据库。在将投影数据库传输到归约器之前，使用游程编码和可变字节编码来减小其大小，这显著提升了性能。在 MapReduce 作业的 Reduce 阶段，使用串行算法来挖掘序列数据库的独立分区。

动态负载均衡在频繁子序列挖掘中也非常重要。它旨在在进程完成分配的任务时，根据需要重新分配工作，使所有进程总体上分配到等量的工作。以下是几种动态负载均衡方案：
- Zaki 的方案 ：在 pSPADE 中扩展了静态任务分区方案（SLB），形成任务队列。在类间动态负载均衡（CDLB）方案中，进程完成当前工作后，会从队列中一次选取一个新任务。递归动态负载均衡（RDLB）方案则利用类间和类内并行性，允许进程与空闲进程共享工作。实验表明，RDLB 在三种方案中表现最佳。
- Guralnik 和 Karypis 的方

会员秒杀 ¥9.9 重磅福利

超级会员免费看