Genome Research | 串联重复序列比对算法RaMA

        本文来自生信算法公众号,欢迎关注。序列比对一直是序列分析中最基本的任务,可以按照一定规则对序列进行排列,得到序列之间的进化差异,帮助计算序列之间的相似性、同源性和功能结构关系。由于序列较长或者数量较大,序列比对需要借助算法来实现。目前已经开发了一系列各种各样快速准确的生物序列比对算法,如多序列比对算法,双序列比对算法,可以满足各种各样的需求。但是当序列含有很多重复区域的时候,现有算法不能得到较好的比对结果。比如对于长串联重复序列(extra-long tandem repeats,ETRs),需要得到串联单元之间的排列,而不是简单通过传统的动态规划算法进行计算。因此,需要针对ETR序列,针对性设计算法,得到可以反映串联单元排列的序列比对结果。

图片

        ETRs是指基因组中很长的串联重复序列,这些序列由特定DNA基序(motif)的多次精确或近似精确重复组成,通常在组装和分析过程中面临特殊挑战。随着人类基因组端到端(T2T)组装的完成,会产生更多的重复区域,如何得到串联重复区域的比对结果显得尤为重要。为此,本期生信算法公众号介绍的文献是电子科技大学邹权教授课题组最近的文章:Fast sequence alignment for centromeres with RaMA,2025年2月发表在Genome Research(现IF:6.2)期刊,RaMA采用寻找低频k-mer,对序列进行分割比对,最终得到理想的比对结果。

图片

1 RaMA算法流程

RaMA主要包括四个步骤,如下图所示。(1)通过suffix数组结构确定低频k-mer;(2)根据低频k-mer确定锚点(anchor);(3)根据anchor分割序列;(4)采用WFA(Wavefront alignment)双序列比对算法得到最终的序列比对结果。

图片

1.1 确定低频k-mer

低频匹配是出现不超过一定次数的match,而anchor是包含位置信息的match。如上图C所示,首先合并序列,序列间插入$作为分割符号。然后构建合并序列的后缀数组。低频匹配(rare match)定义为出现次数(k)不超过max_count的子片段,即:2 ≤ k ≤ max count,没有固定长度。上图例子中,通过SAs和LCP找到了两个低频匹配:AT和AGCGAG。 

1.2-1.3 寻找chaining与序列分割 

这一步就和目前的chaining算法一样,通过上一步的anchor集合,采用动态规划算法,得到得分最高的chaining。这个在目前三代序列比对算法中经常使用,如:三代序列比对算法minimap2,就是快,快,快!三代测序序列比对利器-BLASR,更小更快更方便。可以找到序列间的比对骨架。如下图所示,这样就可以将序列片段化,进而采用现有的双序列比对软件得到详细的比对结果。

图片

此图来自生信算法公众号之前解读的一篇三代序列比对算法,点击阅读:rHAT,国内首个三代序列比对算法

分割的序列如上图b所示,每个anchor就是一个完美的匹配,不用进行序列比对,只需要比对anchor间的序列对。

1.4 采用WFA软件进行序列比对  

WFA是一个快速的双序列比对算法,2021年发表在Bioinformatics期刊,已经有第二个版本WFA2,如下图所示。

图片

图片

图片

WFA可以不用比对所有的打分矩阵,只针对对角线周围的得分,可以极大提高比对速度,如上图所示。比对完后,与anchor进行合并,得到最终的序列比对结果。 

2 实验结果

RaMA目前输入的是两条重复性序列,不是将序列比对到参考基因上,这个要注意。文章采用了模拟数据和真实数据进行了比较分析。主要和UniAligner方法比较,这个是发表在Nature Methods的方法,可以说是第一个比对ETRs序列的方法。本文应该是受到UniAligner方法的启发,开发了RaMA方法。下图反映了这两个方法的比对细节,RaMA可以得到更少的插入和删除。详细的分析大家可以参考原文。

图片

参考资料:

  • Zhang P, Wei Y, Tian Q, et al. Fast sequence alignment for centromeres with RaMA[J]. Genome Research, 2025, 35(5): 1209-1218.

往期回顾

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值