高通量 SNP 基因分型与标签 SNP 选择方法
1. 高通量 SNP 基因分型相关问题
在对大量单核苷酸多态性(SNPs)进行基因分型时,通常需要多次单碱基延伸/杂交测序(SBE/SBH)测定。这就引出了最小池划分问题(MPPP),即把给定的 SNPs 集合划分为最少数量的子集,使得每个子集都能通过一次 SBE/SBH 测定进行基因分型。
具体来说,给定引物池 (P = {P_1, \cdots, P_n})、相关的延伸集 (E_p)((p \in \cup_{i = 1}^{n}P_i))、探针集 (X) 和冗余度 (r),需要找到将 (P) 划分为最少数量的强 (r) - 可解码子集的方法。
解决 MPPP 的一种自然策略类似于集合覆盖问题的贪心算法,即找到引物池的最大强 (r) - 可解码子集,将其从 (P) 中移除,然后重复该过程,直到 (P) 中没有剩余的池。这一策略在实践中优于其他解决类似 PEA 测定划分问题的算法。
该策略的主要步骤涉及最大 (r) - 可解码池子集问题(MDPSP),即给定引物池 (P = {P_1, \cdots, P_n})、相关的延伸集 (E_p)((p \in \cup_{i = 1}^{n}P_i))、探针集 (X) 和冗余度 (r),找到 (P) 的最大强 (r) - 可解码子集 (P’\subseteq P)。
研究表明,MDPSP 是 NP 难问题,即使限制为 (r = 1) 且每个 (P \in P) 满足 (|P| = 1) 的实例也是如此。并且,在这些限制条件下,难以在 (6600/6659) 的因子内近似求解 MDPSP。
超级会员免费看
订阅专栏 解锁全文
394

被折叠的 条评论
为什么被折叠?



