人口规模聚类与种族预测
1. 数据预处理与特征工程
1.1 数据选择与下载
由于24个VCF文件的数据量高达820GB,为了简化演示,我们仅选择Y染色体的遗传变异数据,其大小约为160MB,不会带来巨大的计算挑战。你可以从 ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ 下载所有VCF文件和面板文件。
1.2 创建SparkSession
首先,我们需要创建SparkSession,它是Spark应用程序的入口:
val spark:SparkSession = SparkSession
.builder()
.appName("PopStrat")
.master("local[*]")
.config("spark.sql.warehouse.dir", "C:/Exp/")
.getOrCreate()
1.3 指定文件路径
接下来,我们要告诉Spark VCF文件和面板文件的路径:
val genotypeFile = "<path>/ALL.chrY.phase3_integrated_v2a.20130502.genotypes.vcf"
val panelFile = "<path>/integrated_call_samples_v3.20130502.AL
超级会员免费看
订阅专栏 解锁全文
979

被折叠的 条评论
为什么被折叠?



