基因分型与肿瘤分类模型研究
2SNP基因分型算法
算法原理
在SNP(单核苷酸多态性)分析中,对于单个SNP的偏差可以进行精确测量。在2SNP算法里,我们假定SNP对的偏差与相应单个SNP观察到的偏差相似。因此,预期的2 - SNP频率会根据观察到的单位点偏差进行成比例调整。
完整基因型定相
- 基因型图构建 :对于每个基因型g,2SNP构建一个基因型图,这是一个完全图,其顶点对应于g的杂合位点(即2’s)。杂合位点i和j之间的边的权重代表了i和j处于顺式或反式定相的确定性(公式1)。基因型图的最大生成树能唯一确定相应基因型的定相,因为它给出了任意两个2’s的顺式/反式定相。
- 缺失数据恢复 :在对2’s进行定相之后,恢复缺失数据(用?表示)。对于每个单倍型h,找到与其汉明距离最近的单倍型h′,并用h′中的相应值恢复h中的?。
- 运行时间分析 :2SNP算法的运行时间有两个瓶颈。一是计算每对SNP的观察单倍型频率,由于有n个基因型,每个基因型有m个SNP,所以这需要O(nm²)的时间。二是恢复缺失数据,这需要计算2n个单倍型(每个单倍型有m个SNP)之间的所有成对汉明距离,因此需要O(n²m)的运行时间。结果,该算法的总运行时间为O(nm(n + m)),其中n和m分别是基因型和SNP的数量。
实验结果
数据集
- 真实数据集:来自79个不同基因组区域的46个真实数据集,所有真实数据集都代表家庭三
超级会员免费看
订阅专栏 解锁全文
983

被折叠的 条评论
为什么被折叠?



