SourceURL:file:///home/inspur/桌面/WPS文字文档.wps
缺失质控,一般用两个参数:
--geno筛选SNP;
--mind筛选个体
GWAS分析时,拿到基因型数据,拿到表型数据,要首先做以下几点:
1,查看自己的表型数据,是否有问题
2,查看自己的基因型数据,是否有问题
然后再进行建模,得到显著性SNP以及可视化结果,清洗数据的时间占80%的时间,有句话这样讲:“Garbage in, Garbage out(垃圾进,垃圾出)”,所以清洗数据非常重要。
问题:为何对缺失数据进行筛选?
无论是测序还是芯片,得到的基因型数据要进行质控,而对缺失数据进行筛
选,可以去掉低质量的数据。如果一个个体,共有50万SNP数据,发现20%
的SNP数据(10万)都缺失,那这个个体我们认为质量不合格,如果加入分析中可能会对结果产生负面的影响,所以我们可以把它删除。同样的道理,如果某个SNP,在500个样本中,缺失率为20%(即该SNP在100个个体中都没有分型结果),我们也可以认为该SNP质量较差,将去删除。当然,这里的20%是过滤标准,可以改变质控标准。下文中的质控标准是2%。
查看一下个体缺失的位点数,每个SNP缺失的个体数。
命令:
plink --file test --missing
看一下参数描述
--missing: Sample missing data report written to plink.imiss, and variant-based
missing data report written to plink.lmiss.
结果生成两个文件,分别是一个个体ID上SNP缺失的信息,另一个是每个SNP在个体
ID中缺失的信息。
个体缺失位点的统计在plink.imiss中
单个SNP缺失的个体数在plink.lmiss.中
R语言做直方图,运行代码前,设置当前路径为工作路径,可以在 RStudio 中设置,对个体及SNP缺失率进行筛选 1, 如果一个SNP,大于2%都是缺失的,那么就删掉该SNP,参数为:--geno0.02 2,如果一个个体,大于2%的SNP都是缺失的,那么就删掉该个体,参数为:--mind 0.02 对SNP缺失率进行筛选,先过滤SNP缺失率高于2%的SNP,转化为map和ped的形式,查看一下过滤后的行数。对样本缺失率进行筛选,过滤缺失率高于2%的个体。
同时对个体和SNP的缺失率进行筛选,注意,在正式分析时,一般先进行SNP的质控,然后再进行样本的质控,在运行代码时,先运行 “--geno”,再运行“--mind”,不能两步合一步。
注意,如果单独过滤和合并过滤差异较大,建议使用单独过滤的方法,即先过滤SNP,再过滤样本。