基因型数据处理----缺失质控

SourceURL:file:///home/inspur/桌面/WPS文字文档.wps

缺失质控,一般用两个参数:

--geno筛选SNP;

--mind筛选个体

GWAS分析时,拿到基因型数据,拿到表型数据,要首先做以下几点:

1,查看自己的表型数据,是否有问题

2,查看自己的基因型数据,是否有问题

然后再进行建模,得到显著性SNP以及可视化结果,清洗数据的时间占80%的时间,有句话这样讲:“Garbage in, Garbage out(垃圾进,垃圾出)”,所以清洗数据非常重要。

问题:为何对缺失数据进行筛选?

无论是测序还是芯片,得到的基因型数据要进行质控,而对缺失数据进行筛

选,可以去掉低质量的数据。如果一个个体,共有50万SNP数据,发现20%

的SNP数据(10万)都缺失,那这个个体我们认为质量不合格,如果加入分析中可能会对结果产生负面的影响,所以我们可以把它删除。同样的道理,如果某个SNP,在500个样本中,缺失率为20%(即该SNP在100个个体中都没有分型结果),我们也可以认为该SNP质量较差,将去删除。当然,这里的20%是过滤标准,可以改变质控标准。下文中的质控标准是2%。

查看一下个体缺失的位点数,每个SNP缺失的个体数。

命令:

plink --file test --missing

看一下参数描述

--missing: Sample missing data report written to plink.imiss, and variant-based

missing data report written to plink.lmiss.

结果生成两个文件,分别是一个个体ID上SNP缺失的信息,另一个是每个SNP在个体

ID中缺失的信息。

个体缺失位点的统计在plink.imiss中

单个SNP缺失的个体数在plink.lmiss.中

R语言做直方图,运行代码前,设置当前路径为工作路径,可以在 RStudio 中设置对个体及SNP缺失率进行筛选 1, 如果一个SNP,大于2%都是缺失的,那么就删掉该SNP,参数为:--geno0.02 2,如果一个个体,大于2%的SNP都是缺失的,那么就删掉该个体,参数为:--mind 0.02 对SNP缺失率进行筛选,先过滤SNP缺失率高于2%的SNP,转化为map和ped的形式,查看一下过滤后的行数。对样本缺失率进行筛选,过滤缺失率高于2%的个体。

同时对个体和SNP的缺失率进行筛选,注意,在正式分析时,一般先进行SNP的质控,然后再进行样本的质控,在运行代码时,先运行 “--geno”,再运行“--mind”,不能两步合一步。

注意,如果单独过滤和合并过滤差异较大,建议使用单独过滤的方法,即先过滤SNP,再过滤样本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值