蛋白质结构分类与物种分离的创新方法研究
1. 蛋白质结构分类的 HMM 方法
1.1 蛋白质分类方法概述
蛋白质分类是生物信息学中的重要研究领域,目前存在多种分类方法。有研究对九种不同的蛋白质分类方法进行了比较分析,使用了如 profile - HMM、带四种不同核函数的支持向量机(SVMs)、SVM - pair wise、SVM - Fisher、决策树和提升决策树等作为分类器。同时,也有许多方法利用隐马尔可夫模型(HMM)进行蛋白质结构分类,其中基于三级结构的 HMM 方法比基于二级结构的方法更准确,因为三级结构包含的信息更多。还有一些工作采用共识策略,通过交叉多个经典结构比对算法的分类结果来对新发现的蛋白质进行分类,但这种组合结构比对算法的计算成本较高。
1.2 提出的新方法
本文提出了一种基于 HMM 的蛋白质三维结构分类新方法,该方法考虑了蛋白质分子的三级结构,并根据 SCOP 层次结构对分类方法进行评估,还与现有的 3D HMM 方法进行了比较。
1.3 HMM 模型原理
HMM 是一种统计模型,可看作有限状态机,常用于时间序列或线性序列分析,在语音识别和生物信息学领域有广泛应用。HMM 有一组有限的状态,包括开始状态和结束状态,通过在一系列状态中发射符号来生成蛋白质序列。每个状态有相关的转移概率 (T_{ij})(即状态 (a_i) 转移到状态 (a_j) 的概率)和发射概率 (E(x|j))(即状态 (a_j) 发射特定符号 (x) 的概率)。任何序列都可以用模型中的一条路径表示,该路径遵循马尔可夫假设,即下一个状态的选择仅取决于当前状态,但状态序列是隐藏的。
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



