18、氨基酸替换矩阵确定方法与计算结果分析-优快云博客

本文链接：https://blog.youkuaiyun.com/b0c1d2/article/details/149393122

氨基酸替换矩阵确定方法与计算结果分析

1. 方法概述

在处理残基序列时，我们先考虑通用残基集 (R) 上的序列方法，后续再将其应用于蛋白质的情况。给定长度分别为 (x) 和 (y) 的两个残基序列 (X) 和 (Y)，它们的全局比对可以用一个 (2×z) 矩阵 (A) 表示。矩阵 (A) 的第一行从左到右读时，是可能插入了间隙的序列 (X)，第二行同理对应序列 (Y)，且矩阵 (A) 中没有全是间隙的列，满足 (max{x, y} ≤ z ≤ x + y)。对于局部比对，即 (X) 和 (Y) 的子序列比对，这种矩阵表示本质上不变，只需将 (x) 和 (y) 设定为两个子序列的长度。

对于给定的替换矩阵 (S) 和间隙成本对 ((h, g))，比对 (A) 的相似度得分 (F_{S}^{h,g}(A)) 由下式给出：
[F_{S}^{h,g}(A) = \sum_{j=1}^{z} f_{S}^{h,g}(A(1, j), A(2, j))]
其中 (f_{S}^{h,g}(A(1, j), A(2, j))) 的取值规则如下：
- 若 (A(1, j)) 和 (A(2, j)) 都不是间隙，则为 (S(A(1, j), A(2, j)))；
- 若 (A(1, j)) 或 (A(2, j)) 是连续间隙组中的第一个间隙，则为 (-(h + g))；
- 若 (A(1, j)) 或 (A(2, j)) 是连续间隙组中的第 (k)（(k > 1)）个间隙，则为 (-g)。

(X) 和 (Y) 的最优全局比对是使上述相似度得分在所有可能的全局比对中最大的比对。最优局部比对则是 (X) 和 (Y) 的子序列的最优全局比对，且该子序