生物模型特征提取与本体区域演化探索
在生物信息学领域,对生物模型的特征提取以及本体区域的演化分析是非常重要的研究方向。下面将详细介绍相关研究内容。
1. SBML模型中SBO概念的分布
利用方法1,可以将生物本体(这里指系统生物学本体SBO)中的概念分布与BioModels数据库中所有模型的注释频率进行比较。SBO中概念在七个顶级分支的分布是不均衡的,模型注释与SBO的关联也是不均衡的,但情况有所不同。例如,“物理实体表示”分支仅包含SBO概念的10%,但47%的模型注释链接到该分支。
由于SBO的不均衡性,我们预期特征会遵循模型注释的分布。同时,研究还调查了每个模型注释中链接概念在本体树中的深度,这有助于判断模型注释的特异性。图2展示了使用ChEBI、GO和SBO进行模型注释的深度分布,CC和BMDB测试集均呈现正态分布。有趣的是,CC集中引用ChEBI的注释数量与BMDB集相比不到1%,这一信息有助于后续确定提取特征的价值。
2. 从任意模型集中提取特征
我们假设一组模型的大量属性空间可以浓缩为较少但仍具描述性的特征数量。为了建立“特征”,我们收集模型的注释并分析关联本体术语背后的语义。在BioModels数据库中,每个模型的注释数量在3到800之间,平均为71条。由于所有方法都需要设置最大特征数量,我们遵循帕累托原则,测试了最大特征数为5和15的情况。
| 特征数量 | 方法 | CC | RS1 | RS2 | BMDB | <
|---|
超级会员免费看
订阅专栏 解锁全文
58

被折叠的 条评论
为什么被折叠?



