大规模图数据全对SimRank相似度计算的并行方法
1. 引言
在大规模图数据处理中,全对SimRank相似度计算是一个具有挑战性的问题。传统的计算方法在处理大规模图数据时,由于时间和空间复杂度较高,效率较低。为了解决这个问题,本文提出了一种基于图划分的并行算法,通过将图划分为多个密集块,分别计算块间和块内的相似度,从而降低计算复杂度。
2. 图与SimRank相似度基础
- 图的表示 :使用有向图 $G = (V, E)$ 来表示,其中 $V$ 是顶点集,$E ⊆ V × V$ 是边集。
- SimRank相似度公式 :两个顶点 $u$ 和 $v$ 的相似度 $s(u, v)$ 定义如下:
- 当 $u = v$ 时,$s(u, v) = 1$;
- 当 $u ≠ v$ 时,$s(u, v) = \frac{c}{\vert I(u)\vert\vert I(v)\vert} \sum_{u’∈I(u),v’∈I(v)} s(u’, v’)$,其中 $c$ 是衰减系数,$I(u) = {v : (v, u) ∈ E}$ 表示连接到 $u$ 的顶点集。
基于此定义,提出了基于矩阵乘法的迭代算法。设 $S_k$ 是第 $k$ 次迭代的相似度矩阵,$S_0$ 是初始矩阵,当 $u = v$ 时,$S_0^{uv} = 1$,否则 $S_0^{uv} = 0$。通过以下公式更新 $S_{k+1}$:
- 当 $u = v$ 时,$S_{k+1}^{uv} = 1$;
- 当 $u ≠
超级会员免费看
订阅专栏 解锁全文
2185

被折叠的 条评论
为什么被折叠?



