模糊逻辑在生物信息学中的应用
1. 癌细胞凋亡相关基因集
癌细胞会通过多种机制避免凋亡,如增加抗凋亡蛋白的表达以及降低肿瘤抑制基因的表达。有一组包含30个基因的集合,记为GD30,它们参与细胞凋亡过程。这30个基因可分为三类:
- 第一类(表中第1 - 10行):抗凋亡基因,其表达对应细胞存活。
- 第二类(表中第11 - 20行):促凋亡基因,其表达信号表示细胞死亡。
- 第三类(表中第21 - 30行):参与凋亡,但基因本体注释未明确其是抗凋亡还是促凋亡。
为了研究这些基因,我们收集了以下数据:
- 基因名称
- 基因描述
- 基因氨基酸(AA)序列
- 基因本体(GO)术语,对于每个术语,提取以下信息:
- 术语名称
- 术语GO代码
- 术语GO分支(分子功能 - F、生物过程 - P、细胞成分 - C)
- 术语证据(可追溯作者声明 - TAS、直接测定推断 - IDA等)
2. 基于基因本体注释的基因聚类
选择合适的相似性度量方法取决于具体应用和所采用的算法。若要对GD30基因集进行聚类,首先需要计算所有基因对之间的相似性(即基因相似性矩阵),可采用一些GO相似性度量方法(如FMS),然后使用聚类算法。为便于分析,我们对GD30集进行了预排列,使三个聚类结构可通过显示基因相似性矩阵直接呈现,这有助于进行独立于聚类技术的初步分析。
我们还比较了上述GO相似性与基于氨基酸序列的传统基因相似性技术。通过Smith - Waterman动态规划算法生成的基因序列相似性矩阵(图3.5),未发现明显的聚类结构,且大部分基因之间的
超级会员免费看
订阅专栏 解锁全文
1204

被折叠的 条评论
为什么被折叠?



