基因组重排与宏基因组支架中重复序列识别算法研究
加权双切接距离问题的算法特性
基于最优加权双切接(wDCJ)排序场景的性质,我们可以探讨wDCJ - dist问题的算法结果,首先评估其计算复杂度。
定理表明,wDCJ - dist问题是强NP完全问题。证明是通过从强NP完全的3 - 划分问题归约而来。给定3 - 划分问题的一个实例,我们构建两个基因组g1和g2。它们基于一个基数为8n的顶点集V构建,且具有相同的完美匹配,其断点图BG(g1, g2)由4n个长度为2的平凡循环组成。g1和g2的唯一区别在于边的权重。我们证明了3 - 划分问题可满足当且仅当wDCJ(g1, g2) ≤ 6n。
由于wDCJ - dist问题是NP完全问题,我们开始寻找能近似或精确计算wDCJ距离的算法。
- 近似算法 :wDCJ - dist问题是3/2可近似的。给定两个加权基因组g1和g2,先计算不平衡循环集合Cu中独立对{I(Ci), I(Cj)}(满足I(Ci) + I(Cj) = 0)的最大基数集S2。我们的近似算法先将S2中的循环成对合并,再将剩余的不平衡循环合并成一个平衡循环。通过一系列推导,证明了该近似算法使用的wDCJ操作数dcjA(g1, g2) ≤ 3/2 · wDCJ(g1, g2)。
- 精确算法 :wDCJ - dist问题在以BG(g1, g2)中不平衡循环的数量nu为参数时是固定参数可解(FPT)的。根据定理,wDCJ(g1, g2)可由n、c和m三个参数计算得出,其中m是将不平衡循环集Cu转换为平衡循环所需的最小循环合并数。该算法通过穷举生成Cu的所有划
超级会员免费看
订阅专栏 解锁全文

652

被折叠的 条评论
为什么被折叠?



