蛋白质多序列比对核心列预测与系统发育树兼容性测试
在生物信息学领域,蛋白质多序列比对和系统发育树的构建是非常重要的研究方向。蛋白质多序列比对有助于我们理解蛋白质的结构、功能和进化关系,而系统发育树则能揭示生物物种之间的进化历程。下面将详细介绍蛋白质多序列比对核心列预测和系统发育树兼容性测试的相关内容。
蛋白质多序列比对核心列预测
在蛋白质多序列比对中,核心列的预测对于评估比对的准确性和为比对参数提供建议至关重要。
- 将核心性应用于准确性估计
- 创建新的核心性特征 :新的特征函数“预测比对核心性”(Predicted Alignment Coreness)类似于用于衡量比对准确性的总列得分。它通过在每列周围取一个窗口 (W),确定其预测的核心性 (\chi(W)) 是否超过阈值 (\kappa),来计算比对中被预测为核心的列的数量。这个数量会通过对序列未知参考比对中核心列数量的估计进行归一化。对于序列 (S) 的计算比对 (A),预测比对核心性特征函数为 (FAC(A) := \frac{|{W \in A : \chi(W) \geq \kappa}|}{L(S)})。归一化器 (L(S)) 是由序列长度的聚合度量、最长公共子序列长度与聚合长度度量的比率以及最大和最小长度差与聚合长度度量的比率等因素的线性组合构成,通过求解线性规划来确定系数,以最小化与真实核心列数量的 (L1) 范数。
- 通过核心性增强现有特征 :对 Facet 中的一些特征进行增强,使其评估集中在预测核心性较高的列上。具体增强的特征包括二级结构块状性、二级结构同一性、氨基酸同一性和平
超级会员免费看
订阅专栏 解锁全文
312

被折叠的 条评论
为什么被折叠?



