纵向关联数据处理与生物医学文本溯源元数据提取技术
在数据处理和生物医学研究领域,纵向关联数据的处理以及生物医学文本中溯源元数据的提取是两个重要的研究方向。下面将分别介绍纵向关联数据的分解技术和基于本体的生物医学文本溯源元数据提取方法。
纵向关联数据的分解技术
纵向关联数据在实际应用中存在大量冗余,为了减少这种冗余,提出了分解技术。该技术通过一组规则构建演绎系统,从而创建分解后的数据集。
在评估分解技术的有效性时,使用了HDT(Binary RDF representation for publication and exchange)对原始纵向关联数据和分解后的纵向关联数据进行处理。以下是处理结果的相关数据:
| 数据集ID | 原始数据 | | 分解后数据 | |
| — | — | — | — | — |
| | HDT大小(MB) | 节省空间百分比(%) | HDT大小(MB) | 节省空间百分比(%) |
| D1 | 242.0 | 96.77 | 222.1 | 97.03 |
| D2 | 700.4 | 96.74 | 646.9 | 96.99 |
| D3 | 1126.4 | 96.73 | 1024 | 97.12 |
从表格数据可以看出,分解后的纵向关联数据的HDT数据结构大小有所减小,节省空间的百分比有所增加。这表明利用纵向关联数据中编码的语义可以有效减少冗余,最多可减少34%。
与其他RDF数据压缩方法相比,以往的方法通过定义压缩规则、使用汇总和图像压缩技术等方式来最小化RDF数据冗余,但这些方法压缩后的RDF数据只能由定制的查询引擎进行查询。而这里
超级会员免费看
订阅专栏 解锁全文
1059

被折叠的 条评论
为什么被折叠?



