基因组距离问题与支架填充问题研究
1. 零样本距离问题
在处理多染色体基因组且不考虑基因顺序的情况下,零样本距离问题是一个重要的研究方向。我们先证明3SAT实例与共同简化基因组之间的关系。
- 正向推导 :假设3SAT实例$(V, E)$是可满足的。对于每个变量$v_i$,若$v_i$设为真,则取子集${p_{i,1}, \ldots, p_{i,k_i}, x_i}$;若$v_i$设为假,则取子集${x_i, q_{i,1}, \ldots, q_{i,l_i}}$。对于每个子句$e_j$,至少有一个文字为真,相应地,三个文字基因$r_j, s_j, t_j$中至少有一个已从包含某个变量基因$x_i$的子集中选取。然后根据不同情况选取子句/文字基因的子集,最终组成的简化基因组$G’$包含每个基因的恰好一个副本。
- 反向推导 :假设两个基因组$G_1$和$G_2$有一个共同简化基因组$G’$,包含每个基因的恰好一个副本。子句小装置$\langle e_j\rangle$的关键性质是,除非三个文字基因$r_j, s_j, t_j$中至少有一个被省略,否则它不能有一个包含每个子句基因$a_j, b_j, c_j, a’_j, b’_j, c’_j$恰好一个副本的共同简化基因组。被省略的文字基因必须出现在$G’$中包含某个变量基因$x_i$的子集中。根据变量小装置的构造,这个子集除了$x_i$,要么包含正文字的文字基因,要么包含负文字的文字基因。将每个变量$v_i$设为真,如果$G’$中包含$x_i$的子集也包含至少一个正文字的文字基因,否则设为假。这样每个子句至少有一个真文字,完成了NP难度证明。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



