生物信息学与数据挖掘中的字符串挖掘技术
1. 后缀 - 前缀对齐
后缀 - 前缀对齐是指字符串 $S[0::i]$ 的后缀与 $S[i + 1::n]$ 的前缀之间的最佳对齐方式。计算最优后缀 - 前缀对齐的时间复杂度为 $O(n^2)$,与全局对齐问题相同。因此,查找所有近似串联重复的复杂度为 $O(n^3)$ 时间和 $O(n)$ 空间。
计算最优后缀 - 前缀对齐的步骤如下:
- 设 $S_{suf}[0::i] = S[0::i]$,$S_{prf}[0::n - i - 2] = S[i + 1::n - 1]$。
- 使用与全局序列对齐相同的递推公式,但将初始化列(第 -1 列)的单元格初始化为零(假设表格的垂直轴排列的是 $S_{suf}$)。
- 最优后缀 - 前缀对齐结束于最后一行中得分最高的单元格。
- 从该单元格回溯,直到到达第 -1 列。假设最高得分单元格位于第 $l$ 列,回溯过程在第 $k$ 行结束,则最优前缀对齐是在 $S_{suf}[k + 1::i]$ 和 $S_{prf}[0::l]$ 之间。
后缀 - 前缀对齐在基因组组装中起着重要作用。在基因组组装中,整个基因组以一组子字符串(称为读段)的形式给出,需要对其进行重建。基因组组装的第一步是解决每对读段的后缀 - 前缀对齐问题。具有高后缀 - 前缀对齐分数的读段对可能在基因组中彼此相邻。假设存在足够的重叠读段,则可以根据它们的后缀 - 前缀重叠来编译读段,从而完成基因组组装。
2. 序列对齐的启发式方法
基于动态规划的对齐算法无疑是分析短序列的宝贵工具。然而,这些算法的运行时间使其不适用于大规模和高通量的比较。为
超级会员免费看
订阅专栏 解锁全文
4167

被折叠的 条评论
为什么被折叠?



