基因分型多重方案设计与单倍型块定义研究
1. 基因分型多重方案设计
1.1 等位基因划分
在基因分型的研究中,需要将匹配 $E_i$ 中的等位基因划分为最多 $(2l + 1)$ 个可分配集合。为此,采用 Ben - Dor 等人的着色方法,构建一个辅助有向图 $H$,其顶点对应匹配 $E_i$ 中的边。若 $(u, v’) \in E_i$,则在 $H$ 中从 $(u, v)$ 到 $(u’, v’)$ 有一条边。由于每个等位基因在原始图 $G$ 中最多有 $l + 1$ 条关联边,根据 $H$ 的构造,其每个顶点的出度最多为 1。因此,使用最小最后排序(SLO)着色法,$H$ 最多可用 $2l + 1$ 种颜色着色。每种颜色类代表一个独立的顶点集,对应一组独立的信息边,从而每种颜色类诱导出一个可分配集合,它们共同覆盖 $E_i$ 的等位基因。
1.2 实用启发式方法
1.2.1 最小分区(MP)算法
该算法一次分配一个 SNP,将其插入最适合的子集。这个子集在添加等位基因对后仍可分配,且激活特征数量最少。只有当目标无法容纳在现有子集中时,才会创建一个新子集。具体算法步骤如下:
1. 随机排列等位基因对 $q_1, \ldots, q_n$。
2. 对于 $i = 1 \ldots n$,考虑等位基因对 $q_i$:
- 找到一个索引 $j$,使得 $Q_{j_0} \cup {q_i}$ 可分配,且 $c(Q_{j_0} \cup {q_i})$ 最小。
- 如果这样的 $j_0$ 存在,则 $Q_{j_0} = Q_{j_0} \cup {q_i}$。
- 否则,$Q_{k
超级会员免费看
订阅专栏 解锁全文
3228

被折叠的 条评论
为什么被折叠?



