基于MapReduce的图数据库频繁子图挖掘及分布式超图划分算法
基于MapReduce的频繁子图挖掘
在大规模图数据库频繁子图挖掘中,提出了一种基于MapReduce框架的方法。该方法将数据库中的图根据顶点属性分发到各个节点,各节点进行本地挖掘,之后收集结果、排序并去除冗余。
- 重要定义
- 子图支持度 :给定图数据库 $G$,$g_i$ 是 $G$ 中的图,$n$ 是图的数量。子图 $g$ 在 $G$ 中的支持度定义为 $Support(g, G) = \frac{\sum_{i=1}^{n} \delta(g, g_i)}{n}$,其中 $\delta(g, g_i) = \begin{cases} 1, & g \subseteq g_i \ 0, & \text{otherwise} \end{cases}$,$f(g) = \sum_{i=1}^{n} \delta(g, g_i)$ 是 $g$ 在 $G$ 中的频率。
- 全局频繁子图 :对于给定的最小支持度阈值 $\theta \in [0, 1]$,若 $Support(g, G) \geq \theta$,则 $g$ 是全局频繁子图。
- 局部频繁子图 :对于给定的最小支持度阈值 $\theta \in [0, 1]$,若 $Support(g, G_i) \geq \theta$,则 $g$ 是节点 $i$ 中的局部频繁子图。
基于MapReduce的频繁子图挖掘与超图划分
超级会员免费看
订阅专栏 解锁全文
565

被折叠的 条评论
为什么被折叠?



