可靠的细粒度引用:应对不断变化的关联数据
在数据驱动的研究领域,数据集尤其是关联数据资源正发挥着日益重要的作用。然而,当前数据集引用存在两大问题:一是研究者只能在数据集层面指定输入数据,无法可靠地指向特定分析所需的精确子集;二是难以可靠地引用不断演变的数据集的特定版本,即便包含版本号,也不能确保他人能准确复现结果。
1. 背景知识
- 关联数据版本控制 :多年来,关联数据的版本控制和演变捕获一直是研究热点。早期工作聚焦于本体变化的捕获,后来发展出结合RDF版本控制与网络存档、长期观察关联数据动态以及高效存档动态关联数据等方法。
- 可靠数据集标识符 :为保证数据集版本的不可变性,受Git版本控制系统启发的方法被提出,利用加密哈希值来实现。同时,其他类似的可靠增量关联数据版本控制方法也相继出现,甚至应用于大数据环境。
- 子集引用 :虽然已有一些处理关联数据资源子集访问和版本的方法,但目前缺乏能将关联数据版本控制、可靠数据集标识符和子集引用三者有效结合的具体解决方案。
2. 现有纳米出版物数据集的特点
纳米出版物是一种以细粒度且具备出处感知方式表示关联数据的概念,已成功应用于多个科学数据集。不过,纳米出版物也存在显著的开销问题。从表1可以看出,多个使用纳米出版物格式的现有数据集,如LIDDI、neXtProt、GeneRIF - AIDA、DisGeNET的三个版本以及从OpenBEL提取的两个版本数据集,纳米出版物格式在三元组数量上带来了巨大的开销。
超级会员免费看
订阅专栏 解锁全文
1960

被折叠的 条评论
为什么被折叠?



