寻找带弧和假结的公共子序列
在生物信息学领域,对遗传和蛋白质序列的相似性分析能够揭示序列间的进化关系以及功能上的相似性。其中,寻找序列间的最长公共子序列是衡量序列相似性的常用方法之一。然而,当序列带有连接符号对的弧(如RNA序列中碱基间的化学键),甚至存在代表假结的交叉弧时,问题变得更加复杂。本文将深入探讨这类带弧注释序列的最长公共子序列问题。
1. 背景知识
遗传和蛋白质序列的相似性可以反映进化和功能的相似性。常用的序列相似性测量方法是基于最长公共子序列算法的成对序列比对。弧可以表示分子序列中的化学键,将其纳入序列比较能更全面地衡量带弧注释序列间的相似性。
以往对带弧注释序列的比对工作主要集中在RNA序列,匹配的弧用于增强或引导序列比对,提高相似性得分,但通常会排除包含假结(即代表假结的交叉弧)的结构。例如,早期的RNA比对工作会在比对序列的同时预测共同的二级结构;Corpet和Minchot提出的算法能将新序列与已比对的序列库进行比对,并尽可能保留序列库的共同二级结构,该算法的时间复杂度为$O(n^5)$;Bafna等人的算法仅处理嵌套弧的情况,使用序列和弧匹配的权重,但不检测弧的不匹配情况,且在弧信息不能提高得分时会忽略,其最坏情况下的时间复杂度为$\Theta(n^2m^2)$;Lenhof等人的图基算法虽然考虑了假结,但仅对一个序列有相关结构的情况进行比对。
2. 问题定义
带交叉弧的序列的弧保留最长公共子序列(Arc-Preserving Longest Common Subsequence,简称Arc-Preserving LCS)问题定义如下:
- 输入 :目标长度$l$以
超级会员免费看
订阅专栏 解锁全文
59

被折叠的 条评论
为什么被折叠?



