基于蚁群优化和分治法的多序列比对算法
1. 引言
多序列比对(MSA)是生物信息学中的常见任务,在检测核酸或蛋白质一级序列间的显著相似区域、支持系统发育树重建、发现蛋白质家族模式、检测新序列与现有序列的同源性以及预测蛋白质序列的二级和三级结构等方面发挥着重要作用。
给定包含 N 个序列的家族 (S=(S_1, \cdots, S_N)),其多序列比对是一个新的序列集 (S’=(S_1’, \cdots, S_N’)),其中所有字符串长度相等,且每个 (S_i’) 是通过在 (S_i) 中插入空位生成的。评估比对质量最常用的评分方法是 SP(sum - of - pairs)函数,一般多序列比对算法的目标是找到具有最高 SP 值的比对。基于 SP 分数的 MSA 是一个 NP 问题,由于实际原因,动态规划方法最多只能对齐少数几个序列。
1.1 现有方法
目前存在众多的 MSA 方法,可大致分为以下几类:
- 渐进式算法 :如 ClustalW 基于 Feng 和 Doolittle 的渐进算法;Dialign 以与序列无关的方式,按片段对的得分顺序组合片段对来组装比对。
- 确定性迭代方法 :像 Prrp、AMPS 算法和 Berger 与 Munsen 的算法。
- 随机方法 :例如 SAGA、Gibbs 采样算法和基于模拟退火的 MSA 算法。
- 集成算法 :包括 T - Coffee、MUSCLE 和 PROBCONS。
- 其他方法
基于蚁群与分治的多序列比对
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



