人口规模聚类与种族预测
1. 数据预处理与特征工程
1.1 数据选择与下载
所有 24 个 VCF 文件共包含 820GB 数据,为简化演示,仅使用 Y 染色体的遗传变异数据,其大小约 160MB,不会带来巨大计算挑战。可从 ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ 下载所有 VCF 文件和面板文件。
1.2 创建 SparkSession
val spark:SparkSession = SparkSession
.builder()
.appName("PopStrat")
.master("local[*]")
.config("spark.sql.warehouse.dir", "C:/Exp/")
.getOrCreate()
1.3 指定文件路径
val genotypeFile = "<path>/ALL.chrY.phase3_integrated_v2a.20130502.genotypes.vcf"
val panelFile = "<path>/integrated_call_samples_v3.20130502.ALL.panel "
1.4 处理面板文件
- 定义目标人群
超级会员免费看
订阅专栏 解锁全文

973

被折叠的 条评论
为什么被折叠?



