单核苷酸多态性(SNPs)问题的复杂性与算法解析
1. SNPs问题概述
在研究单核苷酸多态性(SNPs)时,我们面临着诸多挑战。SNPs问题的基本框架包含一组剪接位点(snips)集合 $S = {1, \ldots, n}$ 和一组片段集合 $F = {1, \ldots, m}$。每个剪接位点能取 $A$ 或 $B$ 值,由一对不相交的片段子集 $A_i$ 和 $B_i$ 定义。这些剪接位点依据其在染色体上从左到右的物理位置有自然的排序,相关数据可表示为一个 $m×n$ 的矩阵,即SNP矩阵,矩阵元素取自字母表 ${A, B, −}$。
2. 冲突图的定义
- 片段冲突图 :当存在剪接位点 $k$ 使得片段 $i \in A_k$ 且 $j \in B_k$ ,或者 $i \in B_k$ 且 $j \in A_k$ 时,我们称片段 $i$ 和 $j$ 存在冲突。给定SNP矩阵 $M$ ,片段冲突图 $G_F(M) = (F, E_F)$ ,其中每条边代表一对冲突的片段。若 $M$ 无误差,$G_F(M)$ 是二分图,每个单倍型对应 $G_F(M)$ 的一个岸,由来自该单倍型的所有片段组成。反之,若 $G_F(M)$ 是二分图,其两个岸的片段可分别合并成一个单倍型。若 $G_F(M)$ 是二分图,我们称SNP矩阵 $M$ 是可行的,否则为不可行。对于行集合 $K$ ,$M[K]$ 表示仅包含 $K$ 中行的 $M$ 的子矩阵。SNPs单倍型分型的根本问题是确定对 $M$ 的最优更改集(如行和/或列删除),使 $M$ 变得可行。实际上,$G_F(M)$ 是 $n$ 个完全二分图的并集,每个图对应 $M$ 的一列,其岸为 $A
超级会员免费看
订阅专栏 解锁全文
7

被折叠的 条评论
为什么被折叠?



