蛋白质结构与折叠分类的BAYESPROT框架研究
1. 蛋白质分类方法概述
蛋白质分类方法主要分为同源方法和判别方法:
- 同源方法 :
- 序列相似性方法 :基于观察到的现象,即如果两个蛋白质的序列具有高度同源性,那么它们的结构也非常相似。
- 穿线法 :通过与已知结构进行比对来预测蛋白质序列的结构。
- 判别方法 :从已知蛋白质结构中提取一些通用“规则”,并将这些“规则”应用于新的蛋白质序列进行预测。不过,序列相似性方法有其局限性,它仅适用于序列和结构都相似的情况。过去已经应用了基于统计技术、神经网络和支持向量机(SVM)的多种判别方法,但应用学习(判别)方法的主要困难在于,随着分类数量的增加,折叠预测的准确性会降低。
为了解决这些问题,本文设计了一个名为BAYESPROT的框架,该框架以特征空间的离散化和树增强网络(TAN)贝叶斯分类器为基础,用于解决从数据库中进行结构和折叠分类的问题。此外,还采用了平均概率投票(MPV)方法来提高性能。
2. 相关研究回顾
近年来,机器学习工具在基于三级超类的蛋白质分类中得到了广泛应用,这些方法被称为判别方法或数据挖掘方法。由于尚未得出序列和结构之间的直接关系,因此人们更多地关注使用统计或机器学习技术,通过特征向量表示可用知识来对蛋白质进行分类。
一些相关研究如下:
- Dubchak等人在1995年和1999年基于神经网络进行了分类研究。
- Ding和Dubchak在2001年使用S
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



