人口规模聚类与种族预测
1. 1000基因组计划数据集介绍
1000基因组计划的数据是一个非常庞大的人类基因变异目录。该计划旨在确定所研究人群中频率高于1%的基因变异。这些数据通过公共数据仓库向全球科学家公开提供且可免费获取。同时,该计划的数据广泛用于筛选遗传疾病患者外显子数据和癌症基因组项目中发现的变异。
基因型数据集采用变异调用格式(VCF),提供了人类个体(即样本)及其基因变异的数据,此外还有全球等位基因频率以及超级人群的等位基因频率。数据会标明每个样本所属的人群区域,这在后续分析中用于预测类别。特定的染色体数据(VCF格式)可能包含样本所属超级人群或所使用测序平台的额外信息。对于多等位基因变异,每个替代等位基因频率(AF)以逗号分隔的列表形式呈现,例如:
1 15211 rs78601809 T G 100 PASS AC=3050;
AF=0.609026;
AN=5008;
NS=2504;
DP=32245;
EAS_AF=0.504;
AMR_AF=0.6772;
AFR_AF=0.5371;
EUR_AF=0.7316;
SAS_AF=0.6401;
AA=t|||;
VT=SNP
AF的计算方法是等位基因计数(AC)与等位基因数量(AN)的商,NS是有数据的样本总数,而_AF表示特定区域的AF。
1000基因组计划始于2008年,由400多名生命科学家组成的联盟参与。第三阶段于2014年9月完成,涵盖了来自26个种群(即种族背景)的2504个个体。总共鉴定出超过8800万个变异(8470万个单核苷酸多态性(SNP)、360万个短插入/缺失(indel)和6万个结构变异)为高质量单倍型。简而
超级会员免费看
订阅专栏 解锁全文
979

被折叠的 条评论
为什么被折叠?



