生物医学数据资产持续集成的管理方法
1. 生物医学数据的持续集成
生物医学数据资产的管理要求能够处理异构的资产类型,每种类型都有其自身的特点、描述性元数据和存储表示(即文件格式)。在资产管理的整体功能中,集成可以从搜索、组织或导出分析等管理操作的角度来理解。集成可以局限于与每个资产(或资产集合)相关的描述性元数据,也可以提供资产本身结构的统一呈现。
常见的数据集成方法,如依赖传统数据库提取 - 转换 - 加载(ETL)的紧密语义集成、预先的语义对齐和模式映射等,在描述性数据事先未知或在发现过程中可能发生变化的情况下存在问题,而这在生命科学应用中经常出现。因此,一种假设元数据不完整或不断演变、采用松散语义集成、无需预先语义对齐、管理接近性松散且与数据源一致性松散的增量模型,比非增量方法具有更广泛的适用性。
我们采用混合方法,将结构化元数据引入系统,并通过增量定义的描述进行扩充。
2. 相关工作
- 数字存储库系统 :如 DSpace 等,主要用于学术作品的长期保存和存档,侧重于文档管理(如 Word、PDF、JPEG 等),而生命科学的 DAM 系统需要支持多样化的生物医学文件格式、大文件大小和整体文件体积。
- SEAD 虚拟存档 :Plale 等人提出的用于联合机构存储库的系统,带有自动化工作流程辅助研究人员进行数据发布。本文提出的资产管理方法进一步深入到科学发现过程中,使数据管理成为发现过程的一部分。
- SQLShare :与 BDAM 目录有许多共同元素,但它以 SQ
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



