生物命名法:词汇知识与歧义的来源
在当今的科学研究中,随着自然语言处理(NLP)技术的发展,从科学文献中识别和提取基因组信息的自动化系统成为了研究热点。生物实体的识别和鉴定是这一过程的关键步骤,而NLP系统通常依赖命名法和本体规范来确定实体名称、分配语义类别和标识符。然而,这些命名法和本体存在结构和语义的异质性,因此开发一个统一的、专为NLP目的自动生成的资源具有重要意义。
研究背景
- 科学文献增长 :过去几年,科学文献数量呈指数级增长,为基因组信息提供了丰富来源。
- NLP与IR应用 :自然语言处理(NLP)和信息检索(IR)方法被广泛用于提取、组织和访问这些信息,特别是自动提取基因和蛋白质等基因组实体。
- 生物命名法的挑战 :将文本中的术语与特定生物实体关联起来极具挑战性,原因包括新基因命名、生物分子实体数量大、不同生物命名约定不同、研究人员不严格遵循标准命名以及生物实体名称存在同义词和歧义等。
- 模型生物数据库 :有许多专门的基因组数据库,如小鼠、果蝇、蠕虫和酵母的模型生物数据库,它们为NLP提供了有价值的资源,但存在格式、本体规范和命名约定不同的问题。
相关工作
- 模型生物数据库 :研究基于四种模型生物(小鼠、果蝇、蠕虫和酵母)的基因命名法,这些数据库网站提供了NLP所需的信息,如官方基因符号、基因同义词、唯一标识符等,还列出了基因与期刊文章的关联,可作为评估
超级会员免费看
订阅专栏 解锁全文
1797

被折叠的 条评论
为什么被折叠?



