球面矩形绘图与非平凡基因组的断点距离近似问题研究
1. 球面矩形绘图相关内容
在平面图形的绘制中,球面矩形绘图是一个重要的研究方向。对于连通的次立方平面图,若它是 3 - 连通立方图的细分图,存在线性时间算法来测试其是否具有球面矩形绘图。
以下是一些关键条件:
- (a) 对于图((G_s)^
)的所有真 3 - 圈都包含(x^
);
- (b) 在面(x)的边界上至少有两个度为 2 的顶点;
- (c) 图(G)最多有三个两两(x) - 独立的具有三个(x) - 腿的圈,并且对于任意两个(x) - 独立的具有三个(x) - 腿的圈,其中至少有一个圈在(x)上有一个度为 2 的顶点。
1.1 定理 1 的证明
设(x)和(y)是平面图形(G)的面,(C)是(G)的一个圈。如果(x)和(y)在(C)的同一侧,并且(C)的(x) - 腿少于四个,则称(C)为(xy) - 坏圈。
-
情况一:(x)和(y)是面
- 若(G)是(xy) - 可绘制的:设(C)是(G)中不分离(x)和(y)的圈,那么(C)的最北和最南圆弧端点的顶点必须与(x) - 腿相关联,所以(C)至少有四个(x) - 腿,不是(xy) - 坏圈。不存在(xy) - 坏圈表明(x)和(y)不相邻。若存在真 2 - 圈或 3 - 圈(C),且(x)和(y)在其同一侧,选择在另一侧顶点数最少的这样的圈,那么(G)在(C)另一侧部分的边界是一个(xy) - 坏圈,所以不存在这样的真 2 - 圈和 3 - 圈。
- 反之,若(x)和(y)不相邻,且在(G^
)的每个真 2 - 圈和 3 - 圈的两侧:若(G)有一个(xy) - 坏圈(C),除了两种情况外,(G^
)中对应于(C)的(x) - 腿的边会诱导出一个真 2 - 圈或 3 - 圈,且(x)和(y)在同一侧。这两种情况是:(a) (C)在与(x)和(y)相同的一侧有一条弦;(b) (C)有三个(x) - 腿,其不在(C)上的端点相同。在这两种情况下,与(x)在同一侧的所有面都是相邻的,(x)和(y)也是相邻的,所以(G)没有任何(xy) - 坏圈。
- 若存在一个面(g)与(x)和(y)都相邻:(g)和(x)的公共边界是边(e_x),(g)和(y)的公共边界是边(e_y)。用新顶点细分(e_x)和(e_y),并用一条穿过(g)的边(e)连接它们,然后通过(e)切割图形。根据相关定理,得到的图形有一个矩形绘图,可轻松转换为(G)的(xy) - 绘图。
- 否则:由于(G)是立方的且没有(xy) - 坏圈,每个与(x)相邻的面与(x)恰好共享一条边。按循环顺序定义与(x)相邻的面为(f_1,f_2,\cdots,f_k,f_{k + 1}=f_1)。不存在(xy) - 坏圈意味着当(j\neq i - 1,i,i + 1)时,(f_i\cap f_j)为空。因此,仅在(f_1,f_2,\cdots,f_k,x)的边界上的边诱导出一个圈(C),它分离(x)和(y),且与(x)或(y)没有公共边。
-
情况二:(x)和(y)不一定是面
- 可以使用以下两种操作:
-
顶点替换为圈
:设(v)是平面图形(G)中度数为(d)的顶点,(v_1,\cdots,v_d)是围绕(v)按顺时针顺序排列的邻居。用圈(u_1u_2,u_2u_3,\cdots,u_du_1)替换(v),并用边(u_1v_1,u_2v_2,\cdots,u_dv_d)替换边(vv_1,vv_2,\cdots,vv_d)。
-
边替换为圈
:设(e)是(G)中端点为(v_1)和(v_2)的边,用两条平行边(u_1u_2)和两条边(v_1u_1)和(v_2u_2)替换(e)。
通过这些操作和相关推理,可以完成定理的证明。
下面是一个简单的流程图,展示了判断(G)是否有(xy) - 绘图的大致流程:
graph TD
A[x和y是否是面?] -->|是| B{G是否是xy - 可绘制的?}
B -->|是| C{是否存在xy - 坏圈?}
C -->|否| D{是否存在面g与x和y都相邻?}
D -->|是| E[细分边并切割图形]
D -->|否| F[定义相邻面并诱导圈C]
B -->|否| G[不满足条件]
C -->|是| G
A -->|否| H[使用顶点或边替换操作]
H --> I[继续判断]
2. 非平凡基因组的示例断点距离不可近似问题
在比较基因组学中,比较两个基因组通常需要在它们的基因之间建立一一对应关系,以优化预定义的度量。示例断点距离问题(EBD)就是这样一个问题,它要求在两个由有符号字符序列表示的基因组中,保留并匹配每个字符的恰好一个出现,以最小化所得基因组的断点数量。
2.1 相关定义
- 基因组相关定义 :给定一个字母表(\Sigma)(基因家族),基因组(G)是(\Sigma)的有符号元素序列,每个(\Sigma)元素的出现称为一个基因。对于基因家族(g\in\Sigma),(occ(G,g))表示(G)中出现的基因((+g)和(-g))的数量,(occ(G)=\max{occ(G,g)|g\in\Sigma})。如果(occ(G,g)=1),则基因家族(g)是平凡的,否则是非平凡的。只包含平凡基因的基因组是平凡基因组。
- 断点距离定义 :对于平凡基因组(G_1)和(G_2),如果基因(g)在(G_1)中紧接基因(g’),而在(G_2)中既不是(g)紧接(g’)也不是(g’)紧接(g),则它们在(G_2)中构成一个断点,断点距离是(G_2)中的断点数量。
- 示例断点距离问题(EBD) :给定两个基于相同字母表(\Sigma)构建的基因组(G_1)和(G_2)以及一个整数(k),问题是是否可以建立(G_1)和(G_2)的示例匹配,使得所得基因组的断点距离至多为(k)。
2.2 问题复杂度
- EBD 是 NP - 完全的,即使其中一个基因组是平凡的,另一个基因组中每个基因最多出现两次。
- 之前的研究表明,在某些条件下 EBD 是 APX - 难的,并且当两个基因组中每个基因最多出现三次时,不存在近似算法。但对于每个基因最多出现两次的基因组,EBD 是否可近似仍是未知问题。
为了证明 EBD 不可近似,我们将证明一个特定的子问题——零示例断点距离问题(ZEBD)是 NP - 完全的。
2.3 零示例断点距离问题(ZEBD)
- 定义 :对于任意(1\leq p\leq q),(ZEBD(p,q))表示(occ(G_1)=p)且(occ(G_2)=q)的 ZEBD 问题。当(p = 1)时,(ZEBD(1,q))可以在线性时间内解决。之前的研究表明(ZEBD(3,3))是 NP - 完全的,(ZEBD(2,q))((q)无界)也是 NP - 完全的,但(ZEBD(2,q))((q)固定)的复杂度未知。
-
证明 ZEBD(2,2) 是 NP - 完全的 :
- 显然 ZEBD 在 NP 中。为了证明其 NP - 难,我们从 3 - SAT 问题进行归约。
- 给定 3 - SAT 问题的一个实例(I=(C_q,V_n)),其中(V_n={x_1,x_2,\cdots,x_n})是布尔变量集合,(C_q={c_1,c_2,\cdots,c_q})是子句集合,每个子句是(V_n)中三个文字的析取。
- 从(I)构建 ZEBD 的实例(I’=(G_1,G_2)),使得(occ(G_1)=occ(G_2)=2)。对于每个子句(c_i\in C_q),构建一对序列((U_i,V_i))。
-
具体构建如下表所示:
| 序列 | 表达式 |
| ---- | ---- |
| (U_i) | (U_1^i d_i U_2^i d_i U_3^i t_i),其中(U_j^i=m_j^i TL_j^i p_j^i FL_j^i\cdots) |
| (V_i) | (V_1^i d_i V_2^i d_i V_3^i t_i),其中(V_j^i=p_j^i FL_j^i m_j^i TL_j^i\cdots) | -
对于(TL_j^i=T_1^{L_j^i}T_2^{L_j^i})和(FL_j^i=F_1^{L_j^i}F_2^{L_j^i}),根据不同条件定义:
- 如果(L_j^i)是(x_k)或(\overline{x_k})在(C_q)中的第一次出现,且(N_{x_k})和(N_{\overline{x_k}})都严格为正,则(T_1^{L_j^i}=y_1^k),(F_1^{L_j^i}=y_2^k);否则为空。
- 如果(L_j^i)是(x_k)(或(\overline{x_k}))的第(l)次出现,设(p = l + 1)(如果(l\lt N_{x_k}),或(l\lt N_{\overline{x_k}})),否则(p = 1)。如果(N_{x_k}\gt1)(或(N_{\overline{x_k}}\gt1)),则(T_2^{L_j^i}=x_k^l)(或(\overline{x_k^l})),(F_2^{L_j^i}=x_k^p)(或(\overline{x_k^p}));否则为空。
通过这样的构建,可以得到(G_1 = U_1U_2\cdots U_q)和(G_2 = V_1V_2\cdots V_q),并且该构建可以在多项式时间内完成。
下面是构建(G_1)和(G_2)的流程图:
graph TD
A[输入3 - SAT实例I] --> B[初始化G_1和G_2为空]
B --> C{是否处理完所有子句c_i?}
C -->|否| D[构建(U_i,V_i)对]
D --> E[更新G_1和G_2]
E --> C
C -->|是| F[得到最终的G_1和G_2]
通过以上构建和相关引理的证明,可以得出(ZEBD(2,2))是 NP - 完全的,从而证明了 EBD 即使在每个基因最多出现两次的基因组中也不可近似。
球面矩形绘图与非平凡基因组的断点距离近似问题研究
2. 非平凡基因组的示例断点距离不可近似问题(续)
2.4 构建元素的直观描述
在构建 ZEBD 实例的过程中,每个子句 (c_i\in C_q)((1\leq i\leq q))由一对序列 ((U_i, V_i)) 表示。这两个序列都由三个子序列组成,分别代表 (c_i) 的三个文字。具体来说,((U_j^i, V_j^i)) 代表对 (c_i) 的第 (j) 个文字的选择机制。
对于每个变量 (x_k\in V_n),集合 ({x_1^k, x_2^k, x_3^k, \cdots, x_{N_{x_k}}^k}) 用于在整个 (C_q) 中传播对文字 (x_k) 的选择,确保如果一个文字满足一个子句,那么它能满足所有包含该文字的子句。同理,集合 ({x_k^1, x_k^2, x_k^3, \cdots, x_k^{N_{\overline{x_k}}}}) 是对 (\overline{x_k}) 的传播机制。
对于每个变量 (x_k\in V_n),当 (N_{x_k}) 和 (N_{\overline{x_k}}) 都严格为正时,((y_1^k, y_2^k)) 在 (G_1) 和 (G_2) 中起到控制作用,保证变量 (x_k) 不能同时为真和假。
下面以一个具体例子说明,假设 (C_q = {(x_1 \vee x_2 \vee x_3), (x_1 \vee x_2 \vee x_3), (x_1 \vee x_2 \vee x_3), (x_1 \vee x_2 \vee x_4)}),得到的 ZEBD(2, 2) 实例 ((G_1, G_2)) 如下:
| 子句 (i) | (U_i) | (V_i) |
|---|---|---|
| 1 | (m_1^1 y_1^1 x_1^1 p_1^1 y_2^1 x_2^1 a_1 m_1^1 d_1 a_1 m_2^1 y_1^2 x_1^2 p_2^1 y_2^2 x_2^2 b_1 m_2^1 d_1 b_1 m_3^1 y_1^3 x_1^3 p_3^1 y_2^3 x_2^3 m_3^1 t_1) | (p_1^1 y_2^1 x_2^1 m_1^1 y_1^1 x_1^1 p_1^1 a_1 d_1 p_2^1 a_1 y_2^2 x_2^2 m_2^1 y_1^2 x_1^2 p_2^1 b_1 d_1 p_3^1 b_1 y_2^3 x_2^3 m_3^1 y_1^3 x_1^3 p_3^1 t_1) |
| 2 | (m_1^2 y_1^1 x_1^1 p_1^2 y_2^1 x_1^2 a_2 m_1^2 d_2 a_2 m_2^2 x_2^2 p_2^2 x_3^2 b_2 m_2^2 d_2 b_2 m_3^2 y_1^3 p_3^2 y_2^3 m_3^2 t_2) | (p_1^2 y_2^1 x_1^2 m_1^2 y_1^1 x_1^1 p_1^2 a_2 d_2 p_2^2 a_2 x_3^2 m_2^2 x_2^2 p_2^2 b_2 d_2 p_3^2 b_2 y_2^3 m_3^2 y_1^3 p_3^2 t_2) |
| 3 | (m_1^3 x_1^2 p_1^3 x_1^1 a_3 m_1^3 d_3 a_3 m_2^3 y_1^2 p_2^3 y_2^2 b_3 m_2^3 d_3 b_3 m_3^3 x_2^3 p_3^3 x_1^3 m_3^3 t_3) | (p_1^3 x_1^1 m_1^3 x_1^2 p_1^3 a_3 d_3 p_2^3 a_3 y_2^2 m_2^3 y_1^2 p_2^3 b_3 d_3 p_3^3 b_3 x_1^3 m_3^3 x_2^3 p_3^3 t_3) |
| 4 | (m_1^4 x_2^1 p_1^4 x_1^1 a_4 m_1^4 d_4 a_4 m_2^4 x_3^2 p_2^4 x_1^2 b_4 m_2^4 d_4 b_4 m_3^4 p_3^4 m_3^4 t_4) | (p_1^4 x_1^1 m_1^4 x_2^1 p_1^4 a_4 d_4 p_2^4 a_4 x_1^2 m_2^4 x_3^2 p_2^4 b_4 d_4 p_3^4 b_4 m_3^4 p_3^4 t_4) |
2.5 相关引理及证明
在解决 ZEBD 问题时,有几个重要的引理:
-
引理 1
:在 ZEBD 问题关于 ((G_1, G_2)) 的任何解中,对于任意 (1\leq i\leq q) 和 (1\leq j\leq 3),要么 ({\chi(1, m_j^i, U_j^i), \chi(2, p_j^i, V_j^i)} \subseteq S_k),要么 ({\chi(2, m_j^i, U_j^i), \chi(1, p_j^i, V_j^i)} \subseteq S_k)。这是由 (U_j^i) 和 (V_j^i) 中元素的位置关系决定的,在 (U_j^i) 中 (\chi(1, m_j^i) < p_j^i < \chi(2, m_j^i)),而在 (V_j^i) 中 (\chi(1, p_j^i) < m_j^i < \chi(2, p_j^i))。
-
引理 2
:在 ZEBD 问题关于 ((G_1, G_2)) 的任何解中,对于任意 (1\leq i\leq q) 和 (1\leq j\leq 3),(\chi(1, m_1^i, U_1^i))、(\chi(1, m_2^i, U_2^i))、(\chi(1, m_3^i, U_3^i)) 中至少有一个属于 (S_k)。通过反证法证明,如果它们都不属于 (S_k),根据引理 1 会得出矛盾,因为这样会导致 (d_i) 的所有出现都无法保留。
-
引理 3
:设 (I = {(i_1, j_1), (i_2, j_2), \cdots (i_p, j_p)}) 使得对于任意 (1\leq m\neq n\leq p),(L_{j_m}^{i_m} = L_{j_n}^{i_n})。那么要么 ({\chi(1, m_{j_m}^{i_m}, U_{j_m}^{i_m}), \chi(1, m_{j_n}^{i_n}, U_{j_n}^{i_n})} \subseteq S_k),要么 ({\chi(2, m_{j_m}^{i_m}, U_{j_m}^{i_m}), \chi(2, m_{j_n}^{i_n}, U_{j_n}^{i_n})} \subseteq S_k)。证明过程通过分析变量 (x_k) 及其相关元素在 (U_{j_r}^{i_r}) 和 (V_{j_r}^{i_r}) 中的位置关系,利用归纳法得出结论。
这些引理相互关联,共同保证了在 ZEBD 问题的解中,变量的选择和文字的传播是一致的,从而使得整个构建的实例能够正确模拟 3 - SAT 问题。
下面是引理之间关系的流程图:
graph TD
A[引理 1] --> B[引理 2]
A --> C[引理 3]
B --> D[ZEBD解的一致性]
C --> D
3. 总结
本文主要探讨了两个不同领域的问题,分别是平面图形的球面矩形绘图和比较基因组学中的示例断点距离问题。
在球面矩形绘图方面,对于连通的次立方平面图,给出了判断其是否具有球面矩形绘图的条件和方法。通过定义 (xy) - 坏圈等概念,分情况讨论了 (x) 和 (y) 是面以及不是面的情况,并使用顶点替换为圈和边替换为圈的操作来处理非面的情况。同时,给出了判断过程的流程图,清晰展示了判断的步骤。
在比较基因组学中,示例断点距离问题(EBD)旨在最小化两个基因组匹配后的断点数量。通过将其转化为零示例断点距离问题(ZEBD),并从 3 - SAT 问题进行归约,证明了 (ZEBD(2, 2)) 是 NP - 完全的,从而得出 EBD 即使在每个基因最多出现两次的基因组中也不可近似的结论。在证明过程中,详细介绍了基因组、断点距离等相关定义,以及构建 (G_1) 和 (G_2) 的具体方法和步骤,还给出了构建过程的流程图和相关引理的证明。
综上所述,本文的研究成果在平面图形绘制和比较基因组学领域都具有重要意义,为相关问题的解决提供了理论基础和方法指导。
超级会员免费看

被折叠的 条评论
为什么被折叠?



