生物信息学中的数据库仓储:数据管理与知识发现
在生物信息学领域,数据管理和知识发现是至关重要的任务。随着生物技术的迅速发展,生物数据的规模和复杂性不断增加,如何有效地管理和利用这些数据成为了一个挑战。本文将探讨生物信息学数据的特点、数据到知识的转化、数据仓储的原理和架构,以及数据质量等方面的问题。
生物信息学数据的特点
生物信息学数据包含了生物信息的不同视图,如生物序列(DNA、RNA和蛋白质)、基因或蛋白质表达、功能特性、分子相互作用、临床数据、系统描述和相关出版物等。这些数据以序列、序列注释、结构模型、物理图谱、临床记录、相互作用途径、基因和蛋白质表达、蛋白质 - 蛋白质相互作用等形式出现在各种数据源中,如数据库、私人数据集合和相关出版物。
生物信息学数据库的数据格式多样,且高度冗余。不同的数据库有其自己的基础设施和专有数据格式,尚未建立通用的数据标准和数据交换格式。例如,GenBank、Swiss - Prot和EMBL对序列条目的描述格式不同。GenBank开发了ASN.1格式,Swiss - Prot设计了自己的格式,而Swiss - Prot的数据格式与EMBL数据库略有不同。此外,XML作为通用数据交换格式的引入,也产生了生物信息学数据的多种XML表示形式。
以下是NAR和DBCAT目录中按类别分类的单个数据库数量:
| NAR | 数量 | DBCAT | 数量 |
| — | — | — | — |
| 主要序列存储库 | 9 | DNA | 87 |
| 比较基因组学 | 4 | | |
| 基因表达 | 19 | | |
| 基因鉴定和结构 | 27 | | |
| 遗
超级会员免费看
订阅专栏 解锁全文
538

被折叠的 条评论
为什么被折叠?



