32、蛋白质二级结构预测中类后验概率的估计

蛋白质二级结构预测中类后验概率的估计

1. 引言

随着基因组测序项目的增多,已知蛋白质序列数量与实验确定的蛋白质(三级)结构数量之间的差距迅速扩大。由于了解蛋白质结构是理解其详细功能的关键,因此从氨基酸序列预测蛋白质结构成为分子生物学的热门话题。由于其内在难度,通常采用分而治之的方法,其中关键的第一步是预测由氢键定义的局部规则二级结构。从模式识别的角度来看,这是一个三类判别任务,即为序列中的每个残基(氨基酸)分配构象状态(α - 螺旋、β - 链或无规卷曲)。

近半个世纪以来,人们开发了许多蛋白质二级结构预测方法。自钱和塞伊诺夫斯基的开创性工作以来,最先进的方法是机器学习方法,并且大多数采用了他们最初的级联架构。该架构使用两个级联的分类器:
- 序列到结构分类器:输入序列上滑动窗口的内容或多序列比对的编码,产生初始预测。
- 结构到结构分类器:输入在初始预测上滑动的第二个窗口的内容,利用连续残基构象状态的相关性,主要作为过滤器,提高预测的生物学合理性。

直到上世纪九十年代末,大多数采用级联处理的预测方法的基础分类器是神经网络,如多层感知器(MLP)或递归神经网络。在过去十年中,它们逐渐被二分类支持向量机(SVM)和多分类支持向量机(M - SVM)取代,这使得预测准确性略有提高。然而,神经网络相对于SVM的一个优势是,在关于损失函数和输出单元激活函数的温和假设下,它们可以估计类后验概率。这种估计有两个重要作用:
- 为预测提供最准确的可靠性指标。
- 对于蛋白质二级结构预测的未来发展很重要。基于标准级联架构的预测方法的主要限制因素是局部信息不足以完全确定结构,递归神经网络只能部分克服这一限制。一些研究考虑了更有雄心的替代方案,即结合判别模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值