基因型数据处理----缺失质控

SourceURL:file:///home/inspur/桌面/WPS文字文档.wps

缺失质控,一般用两个参数:

--geno筛选SNP;

--mind筛选个体

GWAS分析时,拿到基因型数据,拿到表型数据,要首先做以下几点:

1,查看自己的表型数据,是否有问题

2,查看自己的基因型数据,是否有问题

然后再进行建模,得到显著性SNP以及可视化结果,清洗数据的时间占80%的时间,有句话这样讲:“Garbage in, Garbage out(垃圾进,垃圾出)”,所以清洗数据非常重要。

问题:为何对缺失数据进行筛选?

无论是测序还是芯片,得到的基因型数据要进行质控,而对缺失数据进行筛

选,可以去掉低质量的数据。如果一个个体,共有50万SNP数据,发现20%

的SNP数据(10万)都缺失,那这个个体我们认为质量不合格,如果加入分析中可能会对结果产生负面的影响,所以我们可以把它删除。同样的道理,如果某个SNP,在500个样本中,缺失率为20%(即该SNP在100个个体中都没有分型结果),我们也可以认为该SNP质量较差,将去删除。当然,这里的20%是过滤标准,可以改变质控标准。下文中的质控标准是2%。

查看一下个体缺失的位点数,每个SNP缺失的个体数。

命令:

plink --file test --missing

看一下参数描述

--missing: Sample missing data report written to plink.imiss, and variant-based

missing data report written to plink.lmiss.

结果生成两个文件,分别是一个个体ID上SNP缺失的信息,另一个是每个SNP在个体

ID中缺失的信息。

个体缺失位点的统计在plink.imiss中

单个SNP缺失的个体数在plink.lmiss.中

R语言做直方图,运行代码前,设置当前路径为工作路径,可以在 RStudio 中设置对个体及SNP缺失率进行筛选 1, 如果一个SNP,大于2%都是缺失的,那么就删掉该SNP,参数为:--geno0.02 2,如果一个个体,大于2%的SNP都是缺失的,那么就删掉该个体,参数为:--mind 0.02 对SNP缺失率进行筛选,先过滤SNP缺失率高于2%的SNP,转化为map和ped的形式,查看一下过滤后的行数。对样本缺失率进行筛选,过滤缺失率高于2%的个体。

同时对个体和SNP的缺失率进行筛选,注意,在正式分析时,一般先进行SNP的质控,然后再进行样本的质控,在运行代码时,先运行 “--geno”,再运行“--mind”,不能两步合一步。

注意,如果单独过滤和合并过滤差异较大,建议使用单独过滤的方法,即先过滤SNP,再过滤样本。

### 处理基因型数据和表型数据的方法 #### 基因型数据分析概述 近年来,随着高通量基因测序技术的发展,个人基因组数据呈现指数级增长。然而,当前的基因分析主要依赖于相关性研究,系统化预测基因型对表型的具体影响仍然是科学界面临的重大挑战[^1]。 #### 使用TASSEL进行基因型和表型数据处理 为了有效处理基因型和表型数据,可以采用TASSEL工具包。以下是具体方法: #### 数据导入 通过TASSEL的第一部分教程,能够实现Plink格式的基因型数据以及对应的表型数据文件的加载。这一过程通常涉及将二进制Plink文件转换成适合进一步统计分析的形式[^2]。 #### 质控流程 在成功导入数据之后,需执行严格的质量控制(QC),这是确保后续关联分析可靠性的关键环节。质量控制主要包括以下几个方面: - **缺失率过滤**:移除那些具有过高比例未知位点的样本或标记。 - **最小等位基因频率(MAF)**筛选:保留MAF达到一定阈值以上的SNPs,因为低频变异可能引入噪音或者偏差。 - **Hardy-Weinberg平衡检验(HWE)**:剔除偏离HWE原则显著的单核苷酸多态性(SNP)位置,这些可能是由于技术错误或其他原因造成的异常情况。 - **样品一致性核查**:确认所有参与个体身份唯一且无重复录入等问题存在。 #### 可视化评估 完成初步清理工作后,应对调整后的数据集开展探索性绘图操作来验证其合理性并发现潜在模式。常用图表形式包括但不限于亲缘关系矩阵(Kinship Matrix)展示、连锁不平衡(Linkage Disequilibrium, LD)结构描绘及时空分布特征反映等维度下的多元尺度分析(Multidimensional Scaling Analysis, MDS)。 #### 统计建模与解释 最终阶段运用两种主流回归框架——即一般线性模型(GLM) 和混合效应模型(MLM)—来进行全基因组范围内的扫描寻找有意义的相关信号源。其中前者假设群体间不存在隐匿分层现象;而后者则额外考虑到了背景遗传相似度带来的干扰因素从而提高检测效能。 ```R library(tassel) # 加载PLINK格式的数据 genoData <- readGenotypeFile("example.bed", "example.bim", "example.fam") # 执行基本QC步骤 qcResults <- qualityControl(genoData, missThresh=0.1, mafThresh=0.05, hweThresh=1e-6) # 计算Kinship matrix用于MLM分析 kinshipMatrix <- calculateKinship(qcResults$filteredGenoData) # 进行GLM GWAS分析 glmResults <- gwasAnalysis(qcResults$filteredPhenotypes, qcResults$filteredGenoData, model="GLM") # MLM GWAS分析 mlmResults <- gwasAnalysis(qcResults$filteredPhenotypes, qcResults$filteredGenoData, kinship=kinshipMatrix, model="MLM") ``` #### 结果可视化 最后一步是对所得结果加以图形表示以便直观理解。典型的应用场景有绘制QQ Plot比较观察p-value分布同理论预期之间的差异程度; 曼哈顿图用来定位最有可能贡献给定性状变化的关键区域所在染色体座标上。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值