挖掘结构数据库:EMO - CC 方法学解析
在生物信息学等领域,挖掘结构数据库以揭示隐藏的生物信息是一项具有挑战性但至关重要的任务。本文将详细介绍一种名为 EMO - CC 的方法学,以及它在基因本体结构数据库中的应用。
1. EMO - CC 方法学基础
EMO - CC 方法学具有两个关键特性:
- 子结构压缩 :基于特定查询对数据库中的子结构进行压缩,从而使子结构能够灵活适应不同的上下文环境。
- 无监督模糊 k - 最近原型分类器推理 :利用该分类器根据已有的知识对新实例进行特征描述。它会计算查询观测值 $x_q$ 在一组预先识别的子结构中的隶属度。
2. EMO - CC 在基因本体结构数据库中的应用
大规模的微阵列实验为基因调控问题提供了广泛的视角,但从这些实验中提取的生物知识往往只涉及少数相关基因,而且由于一些基因表达水平较低,难以识别。此外,在不同处理、时间、患者等因素下,表达基因的差异行为也很难区分。因此,我们将 EMO - CC 应用于基因本体(GO)数据库,以发现能够解释具有相似表达行为的微阵列基因谱类别的有趣子结构。
GO 网络存储了最强大的基因特征描述之一,包含三个结构化的词汇表(即本体),以物种无关的方式描述基因产物的生物过程、细胞成分和分子功能。GO 术语以层次网络的形式组织,每个层次对应不同的特异性定义,从计算角度看,这些网络被组织为有向无环图(DAG),可表示为树结构。
2.1 EMO - CC 对 GO 领域的定制
我们使用 GO 数据库,并将术语与 Affyme