生物信息学资源与计算实用指南
1. 文本信息存储库与本体论
1.1 文本信息存储库
期刊文章并非文本信息的唯一来源。其中一个著名的存储库是在线人类孟德尔遗传数据库(OMIM,网址:www.ncbi.nlm.nih.gov/omim),它包含了所有已知人类遗传疾病的文本描述。这些描述还包含了与上述许多存储库中支持数据的链接,同样,许多存储库也有指向 OMIM 的链接。
1.2 本体论
在生物信息学中,本体论本质上是由科学界达成共识、具有严格定义含义的术语列表。当有多个词汇可用于描述同一事物时,同义词会与定义一同列出。为避免混淆和重复,每个术语都有一个特定的访问编号。生物信息学中最常用的本体论是基因本体论(GO,网址:www.geneontology.org)。虽然本体论看似与字典无异,但它的一个重要附加特性是能够捕捉术语之间的关系。例如,在 GO 中,“碳水化合物结合”这一术语被定义为分子功能“结合”的一个子集,许多特定类型的结合,如“葡萄糖结合”,都与更广泛的“碳水化合物结合”术语相关联。
本体论在生物信息学中有诸多用途:
- 作为受控词汇表 :可作为用户输入数据时的受限术语列表。常见的实施方式是仅允许通过下拉框输入,框中仅包含允许的术语。以这种方式注释数据,使用自动化系统检索和分析数据会比使用自由文本描述容易得多。因此,许多标准数据格式,如微阵列实验的最小信息量(MIAME)标准,都在其元数据中使用了本体论。
- 促进高级数据查询 :例如,使用普通关键词搜索“碳水化合物结合”,只会返回包含该术语的文档;而借助 GO 进行搜索,还能返回虽
超级会员免费看
订阅专栏 解锁全文
5737

被折叠的 条评论
为什么被折叠?



