基因型数据处理----缺失质控

最新推荐文章于 2025-07-22 16:45:27 发布

育种数据分析之放飞自我

最新推荐文章于 2025-07-22 16:45:27 发布

阅读量129

点赞数 3

CC 4.0 BY-SA版权

文章标签：学习学习方法

互秀朋友圈呀, 微信: yijiaobani, 备注: 姓名+ 单位

本文链接：https://blog.youkuaiyun.com/yijiaobani/article/details/149539698

SourceURL:file:///home/inspur/桌面/WPS文字文档.wps

缺失质控,一般用两个参数:

--geno筛选SNP;

--mind筛选个体

GWAS分析时,拿到基因型数据,拿到表型数据,要首先做以下几点:

1,查看自己的表型数据,是否有问题

2,查看自己的基因型数据,是否有问题

然后再进行建模,得到显著性SNP以及可视化结果,清洗数据的时间占80%的时间，有句话这样讲:“Garbage in, Garbage out(垃圾进,垃圾出)”,所以清洗数据非常重要。

问题:为何对缺失数据进行筛选?

无论是测序还是芯片,得到的基因型数据要进行质控,而对缺失数据进行筛

选,可以去掉低质量的数据。如果一个个体,共有50万SNP数据,发现20%

的SNP数据(10万)都缺失,那这个个体我们认为质量不合格,如果加入分析中可能会对结果产生负面的影响,所以我们可以把它删除。同样的道理，如果某个SNP,在500个样本中,缺失率为20%(即该SNP在100个个体中都没有分型结果),我们也可以认为该SNP质量较差,将去删除。当然，这里的20%是过滤标准,可以改变质控标准。下文中的质控标准是2%。

查看一下个体缺失的位点数,每个SNP缺失的个体数。

命令:

plink --file test --missing

看一下参数描述

--missing: Sample missing data report written to plink.imiss, and variant-based

missing data report written to plink.lmiss.

结果生成两个文件,分别是一个个体ID上SNP缺失的信息,另一个是每个SNP在个体

ID中缺失的信息。

个体缺失位点的统计在plink.imiss中

单个SNP缺失的个体数在plink.lmiss.中

R语言做直方图,运行代码前,设置当前路径为工作路径,可以在 RStudio 中设置，对个体及SNP缺失率进行筛选 1, 如果一个SNP,大于2%都是缺失的,那么就删掉该SNP,参数为:--geno0.02 2,如果一个个体,大于2%的SNP都是缺失的,那么就删掉该个体,参数为:--mind 0.02 对SNP缺失率进行筛选,先过滤SNP缺失率高于2%的SNP，转化为map和ped的形式，查看一下过滤后的行数。对样本缺失率进行筛选,过滤缺失率高于2%的个体。

同时对个体和SNP的缺失率进行筛选,注意,在正式分析时,一般先进行SNP的质控,然后再进行样本的质控,在运行代码时,先运行 “--geno”,再运行“--mind”,不能两步合一步。

注意,如果单独过滤和合并过滤差异较大,建议使用单独过滤的方法,即先过滤SNP,再过滤样本。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。