生物医学数据建模:EER 模型的扩展与应用
1. 引言
如今,生物数据正以前所未有的速度大量产生。以 GenBank 核苷酸序列及其编码蛋白质的存储库为例,新条目的数量从 1996 年的 100 万条呈指数级增长到 2005 年的 4600 万条。然而,大多数分子生物数据库源于旧系统,缺乏现代数据库系统的诸多良好实践。而且,生物数据在内容、格式、含义和来源上本质上就很复杂,存储、检索和分析这些数据需要合适的数据模型。
传统数据模型往往缺乏对生物数据中常见现象进行建模的足够概念。在生物数据建模中,至少有三个频繁出现的概念:序列排序、输入/输出过程和分子空间结构。序列数据(如 DNA/RNA 中的核苷酸和蛋白质中的氨基酸)在其物理结构上具有顺序属性;重要的生物过程(如基因表达、新陈代谢、细胞信号传导和生化途径调节)都涉及有序事件和输入/输出过程;这些实体的生物功能完全由其内部空间分子结构和各种外部相互作用决定。
由于这些关系类型的重要性,有必要对它们进行建模。像广泛使用的 ER 和 EER 模型等数据库概念模型,难以表示生物信息学中这些常见概念。虽然可以通过添加一个或多个关系属性将排序纳入关系中,但这会使概念模式复杂化,难以从概念模式图中识别有序关系。因此,最好对这些重要且频繁出现的概念进行明确清晰的表示。
为了适应这些特征,我们建议对 EER 模型进行重大但最小化的更改,引入三种特殊类型的关系:有序关系、过程关系和分子空间关系。此外,生物信息学中的许多关系在有序关系中需要实例的重复,因此我们还提议在需要时允许关系实例的多重集或包。尽管符号变化很小,但它们增强了建模能力,能够直接捕捉这些概念。
超级会员免费看
订阅专栏 解锁全文
53

被折叠的 条评论
为什么被折叠?



