RDF数据集的版本控制、变更验证及实体链接效果研究
1. RDF版本控制相关方法
在RDF版本控制方面,存在多种不同的实现方式。一种接口是基于SPARQL的扩展,添加了用于引用特定版本的关键字。与一些使用四元组存储来对单个图进行版本控制的方法不同,这里采用四元组存储对图的集合进行版本控制,且每个图独立进行版本管理。对于任意版本的查询,需要先将其实例化到一个临时命名图中。为了加速常见场景,每个图的最新版本会存储在相应的命名图中,同时标记版本也会被实例化。
另外,一些社区驱动的数据集已经采用GIT进行版本管理。Halilaj等人从词汇表开发的角度出发,提出了一套最佳实践,必要时扩展GIT以满足协作式词汇表开发的需求。他们发现GIT已经满足了一些需求,如灵活的工作流支持、版本分支和标记等。不过,基于文本的版本控制系统在处理RDF这类非线性数据时存在问题,因此Halilaj等人采用Turtle语法,以避免编辑工具因写入算法不同而产生同一图的不同表示。GIT生态系统中的其他系统,如JIRA等问题跟踪系统,可以满足沟通和协调等需求。同时,还引入了OWL2VCS来在更高级别上比较两个版本,其他需求可以通过原生功能和特定钩子(如提交前后触发的脚本)的组合来满足。
2. 变更验证与版本控制的关系
在经过整理的数据集中,变更验证的目的是审查数据集中的单个变更,拒绝不需要的变更;而版本控制主要是存储和访问不断演变的数据集的不同状态。这两个活动存在多方面的联系,验证可以基于版本控制的概念和系统来实现。
2.1 异步工作流中的变更验证
在某种程度上,支持分支的版本控制系统允许进行一种形式的变更验证。在异步工作流中,每个贡献被分配到一个单独
超级会员免费看
订阅专栏 解锁全文
1410

被折叠的 条评论
为什么被折叠?



