生物数据与学习领域中的主题地图应用探索
1. 生物数据到生物知识的挑战
在生命科学研究中,知识是取得成功的关键前提。面对海量的生物信息,强大的知识组织和管理技术显得尤为重要。然而,生物知识管理面临诸多难题。生物信息分散在众多高度分布式的数据资源中,且概念层面上高度互联、依赖上下文。
例如,当生物学家询问“参与信号转导的酵母蛋白”时,目前没有计算系统能直接给出准确答案。即使使用互联网搜索引擎,如谷歌返回 145 万个搜索结果,但大部分与原问题关联不大,手动评估结果既不充分也不系统。
造成这种困境的原因主要有以下几点:
- 数据访问技术多样 :不同数据库提供的数据访问方式不同,有的可直接访问数据,有的通过 Web 服务,还有的仅提供大的平面文件或通过基于网络的门户访问。
- 数据格式异构 :生物数据资源的格式高度异构,导致互操作性存在复杂的概念障碍。基于关系查询的搜索机制在解释问题含义时往往失效,单个词汇的解释也存在问题,术语的歧义性严重影响数据集成。
2. 大规模生物知识组织方案
随着生物数据集的规模和复杂性不断增加,迫切需要新的知识组织方法。为了在语义层面展示生物知识的组织方式,我们整合了 MIPS 组提供的两个大型系统:PEDANT 和 SIMAP。这两个系统共包含超过 1.2TB 的生物数据,分布在约 450 个数据库中。
GenRE 是 MIPS 开发的基因组研究环境,是基于 J2EE 中间件的组件化 n 层架构。其多层方法的基本思想是将系统划分为弱连接的层,各层执行不同任务,且各层可根据需求或技术变化独立修改或替换