S2X:基于GraphX的RDF图并行查询技术解析
1. RDF图在GraphX属性图数据模型中的表示
RDF(Resource Description Framework)具有简单性和灵活性,能对任意资源的知识进行建模,资源由全局标识符(IRIs)表示。例如,DBpedia中达芬奇的IRI是 http://dbpedia.org/resource/Leonardo da Vinci 。
要将RDF图$G = {t_1, \ldots, t_n}$表示为GraphX的属性图数据模型,需定义以下集合:
- $S(G) = {s | \exists p, o : t = (s, p, o) \in G}$:图$G$中所有主体的集合。
- $P(G)$:所有谓词的集合。
- $O(G)$:所有对象的集合。
对应的属性图$PG(P) = (V, E, P)$,其中:
- $V = S(G) \cup O(G)$:顶点集合。
- $E = {(s, o) | \exists t = (s, p, o) \in G}$:边集合。
- $P_V.label : V \to S(G) \cup O(G)$和$P_E.label : E \to P(G)$:顶点和边的标签函数。
由于GraphX为提高效率要求顶点标识符为64位整数,因此使用Spark提供的 zipWithUniqueID 函数为图$G$中的所有主体和对象派生唯一整数ID,并将原始术语保留在标签属性中。每个三元组$t = (s, p, o) \in G$由两个顶点$v_s, v_o \in V$
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



