人口规模聚类与种族预测:从基因组数据到机器学习应用
在当今的生物信息学和机器学习领域,利用大规模基因组数据进行人口规模聚类和种族预测是一个极具挑战性和潜力的研究方向。本文将深入探讨相关的数据资源、算法工具以及编程环境的配置,为你揭示如何从海量的基因组数据中提取有价值的信息。
1. 1000基因组计划数据集概述
1000基因组计划是一个具有重大意义的项目,旨在确定研究人群中频率高于1%的遗传变异。该项目产生了一个庞大的人类遗传变异目录,并且这些数据通过公共数据仓库向全球科学家开放。这些数据在筛选遗传疾病个体外显子数据中的变异以及癌症基因组项目中得到了广泛应用。
基因型数据集采用变异调用格式(VCF),提供了人类个体及其遗传变异的数据,同时还包含全球等位基因频率以及超级人群的等位基因频率。每个样本的数据都标注了其所属的人群区域,这在后续的预测分析中起到了关键作用。
该项目于2008年启动,由400多名生命科学家组成的联盟参与。到2014年9月第三阶段结束时,涵盖了来自26个不同人群(即不同种族背景)的2504个个体。总共鉴定出超过8800万个高质量单倍型变异,其中99.9%的变异为单核苷酸多态性(SNPs)和短插入/缺失(indels)。经过质量控制,去除了一些不太重要的变异后,第三阶段发布的数据中还剩下8440万个变异。
这26个人群分别来自欧洲、非洲、美洲(南北美洲)和亚洲(南亚和东亚),每个群体大约有60 - 100个个体。这些人群样本根据其主要血统被分为超级人群组,具体如下:
- 东亚人群(CHB、JPT、CHS、CDX和KHV)
- 欧洲人群(CEU、TSI、FIN、GBR和IBS)
- 非洲人群(YRI
超级会员免费看
订阅专栏 解锁全文
34

被折叠的 条评论
为什么被折叠?



