人口规模聚类与种族预测
在遗传学和机器学习交叉的领域中,人口规模聚类和种族预测是极具挑战性和前景的研究方向。本文将围绕相关数据、算法、工具以及编程环境配置等方面展开详细介绍。
1. 1000基因组计划数据集描述
1000基因组计划旨在确定所研究人群中频率高于1%的遗传变异。该项目的数据是一个庞大的人类遗传变异目录,已通过公共数据存储库向全球科学家开放。这些数据广泛用于筛选遗传疾病患者外显子数据和癌症基因组项目中发现的变异。
基因型数据集采用变体调用格式(VCF),提供了人类个体及其遗传变异的数据,还包括全球等位基因频率以及超级人群的等位基因频率。例如:
1 15211 rs78601809 T G 100 PASS AC=3050;
AF=0.609026;
AN=5008;
NS=2504;
DP=32245;
EAS_AF=0.504;
AMR_AF=0.6772;
AFR_AF=0.5371;
EUR_AF=0.7316;
SAS_AF=0.6401;
AA=t|||;
VT=SNP
其中,AF是等位基因计数(AC)与等位基因数量(AN)的商,NS是有数据的样本总数,_AF表示特定区域的AF。
该项目始于2008年,由400多名生命科学家组成的联盟参与,第三阶段于2014年9月完成,涵盖了来自26个种群(即种族背景)的2504名个体。总共鉴定出超过8800万个高质量单倍型变异,其中99.9%为单核苷酸多态性(SNPs)和短插入/缺失(indels)。经过质量控制,第三阶段发布时剩下8440万个变异。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



