74、COMBAT：利用二分图匹配快速搜索高度相似的蛋白质编码序列-优快云博客

本文链接：https://blog.youkuaiyun.com/beta5/article/details/154462561

COMBAT：利用二分图匹配快速搜索高度相似的蛋白质编码序列

1. 引言

在过去十年里，众多基因组项目为越来越多的生物生成了完整的基因组。自1999年以来，许多工具在比对两个密切相关生物的大型基因组序列方面被证明是有效的，比如MUMmer、GLASS、AVID、DIALIGN、LAGAN、BLASTZ、BLAT等。这些程序有一些共同特点：
- 假设被比对序列的保守区域以相同的顺序和方向出现，这在密切相关的生物中尤为常见。
- 构建氨基酸或核苷酸之间匹配和不匹配的得分表，纳入插入或缺失的惩罚，从而获得数学上的“最优”比对。
- 许多局部比对程序搜索精确或间隔精确的匹配，然后根据指定的评分函数在两个方向上扩展局部相似性。

然而，这些程序存在一些局限性：
- 基因组的顺序和方向在感兴趣的物种之间不一定是保守的。
- 用于比对一组序列的最合适的评分矩阵（如PAM或BLOSUM矩阵）应根据序列的相关程度来确定，因此需要预先估计两个基因组之间的相似百分比以选择合适的评分矩阵。而且，基因组中不同区域的进化速率不同，使得选择通用的评分矩阵或一组间隙成本变得不切实际。
- 使用“匹配并扩展”策略的许多局部比对算法在向两个方向扩展短匹配时成本很高。

为了解决这些挑战，我们介绍一种新的局部比对算法——COMBAT（Clean Ordered Mer-Based Alignment Tool），它通过以下两个关键阶段来实现：
- 生成翻译后基因组序列中所有重叠K - 元组的索引，该索引表示K - 元组所属的块，用于有效搜索同源块。
- 使用稳定婚姻问题不完全列表算法（SMI）从多个局部映射列表中找到最优的一对一映射，从而形成