基于多元线性回归的标签SNP选择与最小多色子图问题研究
在生物信息学领域,标签SNP选择和最小多色子图问题是两个重要的研究方向。标签SNP选择有助于提高基因分型和单倍型分析的效率,而最小多色子图问题则在多重PCR引物集选择和群体单倍型推断中有着广泛的应用。
标签SNP选择方法
- 逐步标签选择算法(STA) :STA从一个初始标签开始,逐步添加最优标签,直到达到指定大小的标签集合。该算法产生的标签集合具有遗传性,即选择的k个标签包含选择的k - 1个标签。STA的运行时间为O(knmT),其中T是预测算法的运行时间。对于统计覆盖,STA等同于Carlson等人使用的贪心算法。
- 局部最小化标签选择算法(LMT) :LMT从STA产生的k个标签开始,迭代地将每个单个标签替换为最佳选择,同时不改变其他标签。这种替换将继续进行,直到预测质量没有显著改善(即改善幅度不超过给定的ϵ%)。LMT的运行时间为O(knmTϵ⁻¹),因为迭代次数不能超过100/ϵ。
实验数据集
为了评估算法的性能,使用了以下数据集:
| 数据集 | 详细信息 |
| — | — |
| 三个ENCODE区域 | 从HapMap ENCODE项目的30个CEPH家系三人组中获得的三个区域(ENm013、ENr112、ENr113),每个区域的SNP基因分型数量分别为361、412和515。 |
| 两个基因区域 | 从HapMap的30个CEPH家系三人组中获得的两个基因区域STEAP和TRPM8,每个基因区域的SNP基因分型数量分
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



