15、生物医学知识提取与置信标记研究

生物医学知识提取与置信标记研究

在当今的生物医学领域,知识的有效提取和准确评估至关重要。随着基因组测序技术和基因操作的发展,生物数据和知识呈现爆炸式增长。众多项目致力于将这些数据和知识进行形式化和结构化,例如 SwissProt 描述人类蛋白质,GOA 描述基因和蛋白质在模式生物中的功能和定位等。然而,科学文献作为生物数据库的重要数据来源,其知识提取面临诸多挑战。

信息检索与关系系统

关系系统在信息检索中具有重要应用。信息检索(RI)的高级功能,如布尔搜索、邻近搜索、分级搜索等,一直使用标准 SQL 语言。关系数据库系统对于结构化数据的处理效率较高,且成本低于专业的信息检索系统。因此,该方法在一些信息检索表示模型(如布尔模型、基于关系代数的概率模型)上有诸多实现,并扩展到支持推理和聚合的关系系统,这些都是信息检索中的重要方法。但这种方法存在关系系统中已知的存储问题。

在 PSIP 项目中,与 Oracle 公司合作,研究将 SPARQL 查询语言集成到信息检索算法中的可行性。这一工作需要将术语导出为 OWL 格式,以创建 RDF 三元组集合。到 2009 年第一季度,CISMeF 目录内的信息检索将实现多术语化,纳入 SMTS 的所有术语,这些术语也包含在 F - MTI 工具中。

生物知识提取的现状与挑战

生物知识的提取主要依赖科学文献,但目前大部分生物数据和知识仍以文本形式存在。每年约有 100 万篇新出版物被收录到 Pubmed 中,2008 年 6 月该数据库提供了超过 1650 万篇出版物的访问权限。然而,无论是生物学家还是注释人员,在文献中检索信息都是一个漫长而繁琐的过程。

为解决这一问题,出现了许多基于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值