生物医学知识提取与置信标记研究
在当今的生物医学领域,知识的有效提取和准确评估至关重要。随着基因组测序技术和基因操作的发展,生物数据和知识呈现爆炸式增长。众多项目致力于将这些数据和知识进行形式化和结构化,例如 SwissProt 描述人类蛋白质,GOA 描述基因和蛋白质在模式生物中的功能和定位等。然而,科学文献作为生物数据库的重要数据来源,其知识提取面临诸多挑战。
信息检索与关系系统
关系系统在信息检索中具有重要应用。信息检索(RI)的高级功能,如布尔搜索、邻近搜索、分级搜索等,一直使用标准 SQL 语言。关系数据库系统对于结构化数据的处理效率较高,且成本低于专业的信息检索系统。因此,该方法在一些信息检索表示模型(如布尔模型、基于关系代数的概率模型)上有诸多实现,并扩展到支持推理和聚合的关系系统,这些都是信息检索中的重要方法。但这种方法存在关系系统中已知的存储问题。
在 PSIP 项目中,与 Oracle 公司合作,研究将 SPARQL 查询语言集成到信息检索算法中的可行性。这一工作需要将术语导出为 OWL 格式,以创建 RDF 三元组集合。到 2009 年第一季度,CISMeF 目录内的信息检索将实现多术语化,纳入 SMTS 的所有术语,这些术语也包含在 F - MTI 工具中。
生物知识提取的现状与挑战
生物知识的提取主要依赖科学文献,但目前大部分生物数据和知识仍以文本形式存在。每年约有 100 万篇新出版物被收录到 Pubmed 中,2008 年 6 月该数据库提供了超过 1650 万篇出版物的访问权限。然而,无论是生物学家还是注释人员,在文献中检索信息都是一个漫长而繁琐的过程。
为解决这一问题,出现了许多基于
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



