基于本体的生物医学数据语义标注网络服务
1. 引言
如今,公开可用的生物医学数据丰富多样,这为生物信息学的多研究整合提供了可能。然而,由于大部分公共资源通常未使用术语和本体进行描述,从生物医学数据挖掘中实现发现受到了限制。例如,研究基因等位变异的研究人员,想了解该基因涉及的所有代谢途径、其等位变异可能影响的药物效果以及可能引发的疾病,还可能对研究这些药物或疾病的临床试验感兴趣。虽然这些信息在在线生物医学数据资源中公开可用,但问题在于如何找到这些信息。
生物医学界已经认识到术语和本体对于促进数据整合和实现新发现的重要性。然而,数据种类繁多,且很少使用生物医学本体中描述的概念进行标注。大多数情况下,资源元素(如实验数据集、诊断、疾病、样本、临床试验描述、出版物、图像)仅用文本元数据进行标注,这些文本描述往往缺乏结构,且很少使用生物医学本体中定义的术语。因此,需要为这些文本描述生成使用本体术语的注释(或标签),以促进数据的搜索、索引和整合。
语义注释在某些案例中已被证明非常有用,例如基因本体(Gene Ontology)广泛用于描述基因产物的分子功能、细胞成分和生物过程,使这些描述能够在多个数据库中整合。又如,新的PubMed引用创建时,文章的标题和摘要会手动用MeSH术语进行索引,显著提高了文章搜索性能。但除了这些成功案例外,生物医学数据的语义注释仍不常见,主要原因如下:
- 注释通常需要专家手动创建或由数据作者直接完成。
- 可用的生物医学本体数量众多,且不断变化、相互重叠,格式不同,并非总能通过编程接口(API)供用户“程序化”使用。
- 用户不一定了解本体结构,有时甚至不知道可用的本体。
- 注释对用户来说往往是一项枯燥且无即时回报的额外
超级会员免费看
订阅专栏 解锁全文
41

被折叠的 条评论
为什么被折叠?



