遗传变异编码与群体遗传参数推断
1. 遗传变异的PRG构建与搜索算法
在遗传研究中,构建有效的数据结构来表示和处理遗传变异至关重要。这里我们介绍一种基于PRG(Population Reference Graph)的数据结构构建方法,以及与之相关的搜索算法。
1.1 PRG数据结构构建步骤
构建PRG数据结构需要多个步骤:
1. 识别共享序列区域 :确定输入基因组之间共享序列的对应区域,这些区域的大小至少为预定义的k,作为锚点。
2. 确定等位基因/单倍型集合 :对于两个锚点区域之间的任何位点,确定可能的等位基因/单倍型集合,但不需要进行比对。不同长度的单倍型支持插入和缺失。
3. 分配变异标记 :为每个变异位点分配两个唯一的数字标识符,一个偶数和一个奇数,分别称为变异标记。奇数标识符标记变异位点边界,有时称为位点标记;偶数标识符标记替代等位基因边界,有时称为等位基因边界标记。
4. 构建线性PRG :对于每个变异位点,将其左锚点添加到线性PRG中,然后添加其奇数标识符。接着,从该位点开始的每个序列(从参考序列开始)依次添加到线性PRG中,后面跟着偶数位点标识符,但最后一个序列后面跟着奇数标识符。
5. 转换为整数字母表 :将线性PRG转换为整数字母表(A → 1, C → 2, G → 3, T → 4,变异位点标识符 → 5, 6, …)。
6. 构建FM - 索引 :构建线性PRG的FM
超级会员免费看
订阅专栏 解锁全文
639

被折叠的 条评论
为什么被折叠?



