蛋白质多序列比对核心列预测以改进参数建议
1. 引言
在蛋白质多序列比对中,准确评估比对结果至关重要。通常,计算得到的多序列比对的准确性是相对于参考比对来衡量的,参考比对代表了序列的黄金标准比对。对于蛋白质序列,参考比对通常通过对基准中蛋白质已知三维结构的结构叠加来确定。
计算得到的比对的准确性定义为参考比对中所谓核心列中对齐的残基对在计算得到的比对列中也存在的比例。核心列是参考中被认为可靠的列,可以客观地定义为包含每个输入序列的一个残基的列,使得这些残基在蛋白质结构叠加中的成对距离都在某个阈值(通常是几埃)之内。
在实际进行序列比对时,参考比对往往是未知的,因此计算得到的比对的准确性或其列的核心度只能进行估计。一个好的准确性估计器对于计算得到的比对非常有用,它可以用于从同一序列的不同比对中选择估计准确性最高的比对,例如为比对器的评分函数选择合适的参数值;或者从不同比对器的结果集合中选择最佳结果,从而得到一个比集合中任何单个比对器都更准确的自然集成比对器。
同样,一个好的核心度预测器可以用于在计算进化树之前屏蔽比对中不可靠的区域;或者通过将评估函数集中在预测核心度较高的列上,来改进比对准确性估计器,从而提高参数建议的性能。实际上,一个完美的核心度预测器本身就可以产生一个理想的准确性估计器。
2. 学习核心度预测器
为了学习列核心度预测器,我们将从以下几个方面进行介绍:
- 表示比对列
- 核心度预测器除了多序列比对本身外,还使用了蛋白质序列的预测二级结构注释。可以通过将序列运行通过标准的蛋白质二级结构预测工具(如PSIPRED)在预处理步骤中获得。
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



