9、人口规模聚类与种族预测

人口规模聚类与种族预测

在遗传学和机器学习交叉的领域中,人口规模聚类和种族预测是极具挑战性和前景的研究方向。本文将围绕相关数据、算法、工具以及编程环境配置等方面展开详细介绍。

1. 1000基因组计划数据集描述

1000基因组计划旨在确定所研究人群中频率高于1%的遗传变异。该项目的数据是一个庞大的人类遗传变异目录,已通过公共数据存储库向全球科学家开放。这些数据广泛用于筛选遗传疾病患者外显子数据和癌症基因组项目中发现的变异。

基因型数据集采用变体调用格式(VCF),提供了人类个体及其遗传变异的数据,还包括全球等位基因频率以及超级人群的等位基因频率。例如:

1 15211 rs78601809 T G 100 PASS AC=3050;
 AF=0.609026;
 AN=5008;
 NS=2504;
 DP=32245;
 EAS_AF=0.504;
 AMR_AF=0.6772;
 AFR_AF=0.5371;
 EUR_AF=0.7316;
 SAS_AF=0.6401;
 AA=t|||;
 VT=SNP

其中,AF是等位基因计数(AC)与等位基因数量(AN)的商,NS是有数据的样本总数,_AF表示特定区域的AF。

该项目始于2008年,由400多名生命科学家组成的联盟参与,第三阶段于2014年9月完成,涵盖了来自26个种群(即种族背景)的2504名个体。总共鉴定出超过8800万个高质量单倍型变异,其中99.9%为单核苷酸多态性(SNPs)和短插入/缺失(indels)。经过质量控制,第三阶段发布时剩下8440万个变异。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值