大规模图处理系统PEGASUS:原理、实现与应用
1. 引言
如今,图数据的规模极其庞大。以在线服务为例,网络图谱的链接至少有1万亿条;Facebook有超10亿用户和1400亿条好友关系;2009年Twitter有超4000万用户和15亿条社交关系。海量数据带来了新机遇和好处,但也带来了计算挑战,像社区检测、寻找连通分量、计算PageRank及其变体、最短路径和半径计算等常见图计算任务,在处理大规模图数据时变得极具挑战性。
PEGASUS是一个开源的Peta图挖掘库,可执行典型图挖掘任务,如计算图的直径、每个节点的半径、寻找连通分量以及计算节点的重要性得分。其核心思想是将矩阵 - 向量乘法作为软件工程师的主要操作原语。它受相关研究启发,引入了一组不同的运算符,结合MapReduce中矩阵 - 向量乘法的优化实现,解决了各种图挖掘任务。自PEGASUS推出后,也出现了其他大规模图处理系统,如Google的Pregel、LinkedIn的Giraph和GraphLab等,其中Giraph还采用了PEGASUS的一些算法和思想。
2. 相关工作
2.1 现实世界网络的结构
- 网络图谱的蝴蝶结结构 :1999年,Andrei Broder等人以强连通分量(SCCs)为基础对网络图谱进行研究,提出了蝴蝶结模型。该模型指出存在一个单一的巨型SCC,其余SCCs相对于巨型SCC的位置分为:IN(能到达巨型SCC但不能从其到达的顶点)、OUT(能从巨型SCC到达但不能到达它的顶点)、Tendrils(能从IN到达但不能到达巨型SCC,或能到达OUT但不能从巨型SCC到达的顶点)、Disconnec
超级会员免费看
订阅专栏 解锁全文
1069

被折叠的 条评论
为什么被折叠?



