GraphDB-Tree:高效存储和处理大规模复杂网络的新方案
1. 图的基本概念
在图论中,图由一组节点和有向边组成,每条有向边是从一个节点到另一个节点的链接,方向非常重要。节点的度(也称为邻域)由其关联的边的数量定义。另外,三角形是一个重要的概念,它是由三个完全相连的节点组成的子图。
对于图 $G = (V, E)$,三角形 $\Delta(G)$ 是一个三节点子图,其中 $V_{\Delta} = {u, v, w} \in V$ 且 $E_{\Delta} = {(u, v), (v, w), (w, u)} \in E$。开放三角形 $\Lambda(G)$ 是一个三节点子图,其中 $E_{\Lambda} = {(u, v), (v, w)} \in E$ 且 ${u, w} \notin E$。传递性比率是网络中闭合三角形的比例,即 $T(G) = \frac{3 * \Delta(G)}{\Lambda(G)}$。
2. 相关工作
近年来,可用的非结构化数据量显著增加,尤其是网络上的复杂网络数据。然而,如何在二级存储中高效存储复杂网络的研究却很少受到关注。目前,大多数研究集中在小型图数据库的索引上,主要任务是搜索相似的图或子图。
- Hadoop与MapReduce :Hadoop是MapReduce的开源实现,它提供了分布式文件系统(HDFS)和PIG(一种用于数据分析的高级语言)。基于Hadoop,有许多图挖掘包可用于处理具有数十亿节点和边的图,如PeGaSus。但MapReduce模型简单,没有内置索引,程序员需要自己实现索引来加速数据访问,且其数据获取机制需要进行调