关系型RDF存储与查询技术的实验评估
1. 引言
资源描述框架(RDF)是一种灵活的模型,用于表示网络中资源的信息。随着可用RDF数据量的不断增加,高效且可扩展地管理RDF数据已成为实现语义网愿景的一项基本挑战。RDF模型吸引了数据库界的广泛关注,许多研究人员提出了不同的解决方案,以高效地存储和查询RDF数据。
RDF最初是为表示和处理远程信息源的元数据而设计的,它定义了一个模型,用于根据唯一标识的属性和值来描述资源之间的关系。RDF的基本构建块是一个简单的元组模型 (subject, predicate, object),用于以事实陈述的形式表达不同类型的知识。与实体 - 关系模型相比,RDF数据模型的一个明显优势是其无模式结构,在实体 - 关系模型中,实体、其属性以及与其他实体的关系都有严格的定义,而在RDF中,模式可以随时间演变。
SPARQL查询语言是W3C官方标准,用于从RDF图中查询和提取信息。它类似于关系模型中的选择 - 投影 - 连接查询,基于强大的图匹配功能,允许将变量绑定到输入RDF图中的组件,并支持三元组模式的合取和析取。
高效且可扩展地管理RDF数据是语义网的核心挑战。关系数据库管理系统(RDBMS)已多次证明,它们在处理以前未预期存储在关系数据库中的数据类型(如复杂对象、时空数据和XML数据)方面非常高效、可扩展且成功。此外,RDBMS能够使用强大的索引机制高效地处理大量数据。基于关系基础设施的RDF查询引擎主要可分为以下几类:
- 垂直(三元组)表存储:每个RDF三元组直接存储在一个三列表 (subject, predicate, object) 中。
- 属性(n元)表存储:将多个RDF属性建模为同一主题的n元