大规模科学数据空间与建筑信息检测系统
1. 大规模科学数据空间概述
在科学研究领域,数据的管理和利用变得越来越重要。目前,科学数据空间仍处于早期发展阶段。以呼吸气体研究为例,为了让研究人员能够轻松与SPARQL查询接口进行交互,在SPARQL中预定义了一些查询条件,例如“ANY keyword equals ‘keyword’ and input dataset ‘datasetName’ is used”。
当前,有三个呼吸气体研究团队每周平均在三项不同研究中进行48次呼吸气体实验。一个典型呼吸气体实验的LCR(可能是某种数据集合),包括其主要、衍生和背景数据集,总大小约为7MB。每个LCR对应的平均三元组数量为170个,平均大小为150KB,存储在Jena的SDB三元组布局中。
通过估算,如果只有一个研究实验室参与,六个月后科学数据空间的总大小约为8.7GB,本地RDF存储中约有8160个三元组(三年约50K个三元组)。根据柏林SPARQL基准测试,在250K三元组的Jena SDB测试数据集上执行50个查询组合的总运行时间略超过一分钟,这表明当前解决方案具有合理的性能。从这个高级估算来看,jSpace可能在部署三年后才需要进行扩展。但如果有多个组织或不同的电子科学应用领域参与,扩展可能会提前。
为了实现垂直可扩展性,可以将多个数据空间实例互连,从而形成大规模科学数据空间基础设施,如下表所示为不同时间节点的数据规模估算:
| 时间节点 | 数据空间总大小 | 本地RDF存储三元组数量 |
| ---- | ---- | ---- |
| 六个月 | 约8.7GB | 约8160个 |
| 三年 | - | 约50K个