模糊逻辑在生物信息学中的应用
1. 蛋白质序列家族分类中的应用
蛋白质可根据序列比较得出的序列关系归入不同家族。处于家族背景下的蛋白质比单个蛋白质本身包含更多信息,例如家族中保守的残基往往表明具有特殊的功能作用,同一序列家族的两种蛋白质可能具有相似的结构。不同的序列比较方法会产生不同的蛋白质序列家族分类和家族成员比对方式。
目前有多个基于序列的蛋白质家族分类资源公开可用,如下表所示:
| 资源名称 | 网址 |
| — | — |
| Pfam | http://pfam.wustl.edu/ |
| ProDom | http://protein.toulouse.inra.fr/prodom/current/html/home.php |
| Clusters of Orthologous Group (COG) | http://www.ncbi.nlm.nih.gov/COG/new/ |
这些方法均采用清晰聚类法构建家族,但由于某些蛋白质家族的模式可能太弱而难以检测或定义,所以未能完全解决蛋白质家族分类问题,因此人们正在积极探索各种替代方法。
为了更灵敏地对蛋白质进行分类,Heger 和 Holm于2003年开发了一种模糊评分模型,用于将查询蛋白质序列归入已知家族之一。具体操作步骤如下:
1. 预比对已知家族中的蛋白质序列。
2. 运用多元分析为蛋白质家族定义一组属性,这些属性涵盖对蛋白质家族重要的部分比对位置。
3. 将每个属性定义为序列模式特征,例如特定序列位置(如210位)可能有两种氨基酸类型(如D和E),并为这些氨基酸赋予该蛋白质家族的隶属度值(如D为0.6,E为
超级会员免费看
订阅专栏 解锁全文
1208

被折叠的 条评论
为什么被折叠?



