OFR:高效的RDF数据集表示方法
在当今的数据处理领域,RDF(Resource Description Framework)数据集的压缩至关重要。高效的压缩方案可以显著减少数据存储空间,提高数据传输效率。本文将详细介绍一种名为Objects-First Representation(OFR)的RDF压缩方案,包括其算法原理、实现细节以及实验结果。
1. 背景与相关工作
在RDF数据集压缩方面,已有不少研究成果。例如,Hernández - Illera等人利用谓词家族(即谓词和主语的可能对),发现实际数据集中这些对的数量远小于所有可能值的组合乘积,存在明显的冗余可去除。他们提出的HDT++算法生成的大型数据集存档比k2 - triples压缩器小10 - 13%。此外,Maneth和Peternek最近发表了一篇关于图压缩(包括RDF压缩)的综述。
2. 提出的算法
2.1 总体方法
OFR算法旨在对RDF数据集进行语义无损压缩,主要目标是提高压缩效率,以帮助分发大型RDF数据集。该算法不追求在不解压的情况下进行搜索,但其中的大部分解决方案也可应用于支持搜索的压缩方案。其总体方法的关键特征如下:
1. 语义和统计编码分离 :首先进行RDF专用转换,然后使用通用压缩算法对其输出进行压缩。
2. 图和字典压缩分离 :图仅包含数字标识符,可通过字典将其转换为实际的主语、谓词和宾语,以降低算法设计复杂度。
3. 内容拆分 :将具有不同语义类型(如主语与宾语)或由相似值组成(如不匹配的字符串片段与
超级会员免费看
订阅专栏 解锁全文
6736

被折叠的 条评论
为什么被折叠?



