基因组映射相关问题的理论与实践探索
1 同线性距离的下界
当许多元素出现在多个集合中时,同线性距离存在一个下界。若在紧凑表示中,许多基因出现在多个染色体中,这意味着在非紧凑表示里,基因组 G1 中的许多染色体 c 上的基因会出现在基因组 G2 的多个染色体中。这种情况的出现是因为许多进化事件将 G1 中的染色体 c“分散”到了 G2 中。若多个染色体 c 都出现这种情况,那么多个染色体必然发生了许多事件,所以基因组之间的距离必然很大。
为证明这个下界,需要引入线性同线性问题,它是同线性问题的一种受限形式,其移动序列有如下约束:
- 前 k - 1 次移动必须是融合或严格受限的易位。初始时指定一个输入集为合并集,每次移动将当前合并集 ∆ 和一个未使用的输入集 S 作为输入,生成新的合并集 ∆′。若某个元素 a 仅存在于 ∆ 和 S 中,则进行易位操作 (∆, S) → (∆′, {a}),其中 ∆′ = (∆ ∪ S) - {a};若不存在这样的元素 a,则直接将两个集合融合:(∆, S) → ∆′,其中 ∆′ = ∆ ∪ S。
- 经过 k - 1 次融合和易位后,若 ∆ 为合并集,接下来的 |∆| - 1 次移动每次将一个单元素集 {a} 分裂出来,生成新的合并集 ∆′ = ∆ - {a}。
设 eD(S(n, k)) 为最优线性移动序列的长度。若线性移动序列在前 k - 1 次移动中进行了 m1 次融合,则包含 k - m1 - 1 次易位。完成 k - 1 次融合和易位后,合并集中还剩下 n - k + m1 + 1 个元素,因为每次易位会消除一个元素。所以,需要进行 n - k + m1 次分裂来消除剩余元素。因此,线性移动序列的长度为 n + m1
超级会员免费看
订阅专栏 解锁全文
1065

被折叠的 条评论
为什么被折叠?



