可靠的细粒度引用:改变链接数据的新途径
1. 纳米出版物数据集概述
纳米出版物是一种重要的数据表示形式,只有当事实有出版物支持(以PubMed数据库标识符标记)时,才会为相关陈述生成纳米出版物。目前,数据集包含略超过10000个纳米出版物。
为了评估,我们从旧的数据转储中追溯生成了纳米出版物快照,对应于2016年6月至2017年5月期间的11个月构建(2017年1月缺失)。使用npop工具构建了增量数据集,然后将11个月内增长的累积数据集大小与纳米出版物快照及其去上下文版本的大小进行比较,以评估增量版本控制是否能抵消纳米出版物增加的空间需求。
2. RDF数据版本控制方法
存在三种通用的任意RDF数据版本控制方法:
- 独立副本 :对应于数据集快照,即非增量版本。
- 基于更改的方法 :在第一个版本之后,为每个版本保留添加和删除的三元组的单独列表。
- 基于时间戳的方法 :将所有三元组保存在同一集合中,但附加其添加或删除的时间戳。
后两种方法各有优缺点,但如果要求一个三元组复制以获取多个时间戳,它们导致的总三元组计数相同。因此,我们使用基于更改或时间戳方法的增量去上下文数据集的总三元组计数作为进一步的比较点。
3. 数据分析评估
我们在DisGeNET数据库上进行了第二次评估,以确定我们的方法在消费者端是否有益。DisGeNET是关于人类疾病及其基因的最全面的公共数据库之一,有RDF和纳米出版物两种格式。目前有三个版本的DisGeNET纳米出版物数据集
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



