PLINK/SEQ association test

最新推荐文章于 2024-09-16 00:19:11 发布

翻译最新推荐文章于 2024-09-16 00:19:11 发布 · 1.9k 阅读

WES 同时被 2 个专栏收录

9 篇文章

订阅专栏

GWAS

2 篇文章

订阅专栏

本文介绍PLINK/seq工具在遗传学研究中的应用，包括单变异、基因及基因集关联性检测方法，如Burden、Uniq、VT、FQRWGT、C-alpha和Sumstat测试。同时，讲解了基于置换的统计方法，如线性和逻辑回归测试，以及如何处理缺失基因型数据。

PLINK/seq可以检测表型-表型之间的相关性，用permutation或者asymptotic statistics。可以基于单变异，基因，也可以基于gene sets。

single variant association

检测一个变异和疾病（dichotomous outcome）的相关性：

pseq proj v-assoc --phenotype my.phenotype

当对于单个VCF文件，可以不用创建项目。在例子中，–phenotype含有2个参数：文件名和表型label：

pseq data.vcf.gz v-assoc --phenotype phenotype.txt my.phenotype

Default情况下，v-assoc 用Fisher’s exact test做等位基因的，显性的和隐性的单突变检验。但是，要基于特定次数permutation来计算empirical significance values，要加上：

--perm 10000

若用适应性的permutations:

--perm -1

具体输出详见下图：
在这里插入图片描述

Linear and logistic regression tests

依然基于单个突变，用logistic regression，可用glm：

pseq proj glm --phenotype phe1 --covar mds1 mds2

这类检验会基于表型（定量表型或者二分表型）。目前仅asymptotic p-values可用。对于罕见突变，这个分析的power较低，甚至可能不可行（一个mask option比如maf=0.02要在跑相关性分析前筛一下。）

Gene/group-based association tests

做set-based association(set可用为gene, pathway, or other entity)：

pseq proj assoc --phenotype my.phenotype --msk loc.group=refseq

assoc命令目前假定一个二分的表型，在default下，这个命令用adaptive permutation。如果要用固定的permutation数，则要加：

--perm 10000

其他筛选可以基于mask功能来实现，这里grouping factor必须用--refseq（包含在LOCDB里）。特定的，如果着眼于罕见突变，可以用mask来筛选minor allele count or frequency:

pseq proj assoc --phenotype phe1 --mask loc.group=refseq mac=2-20

在这里插入图片描述
其中，NVAR表示突变数目。Default下，是基于burden test的case-control minor alleles的比较。P值基于permutation，经验显著性(empirical significance)。I列表示proportion of null replicates for which the best test statistic was tied. 这是一种测量统计上经验分布分离性的方法，可以有效给出一个可能的最小经验P-value。比如一个基因仅有一个突变，且这个突变在case和control里出现次数一样，那么I=0.5。过滤掉过高的I可以使得P值的分布更加合理。这个和GWAS里去除低minor allele frequencies (eg. < 1%)是差不多的。
PSEQ有一系列的gene-based的方法。

Ouput label	Statistic	–options	Directionality
BURDEN	Excess of rare alleles in cases compard to controls	no-burden (tests included by default, use to remove)d	1-sided
UNIQ	Count of case-unique rare alleles	uniq	1-sided
VT	variable threshold test	vt	1-sided
FQRWGT	Frequency-weighted test, in spirit of Madsen-Bowning	fw	1-sided
CALPHA	C-alpha test	calpha	2-sided
SUMSTAT	sum of single-site statistics	sumstat	2-sided

对于BURDEN test，DESC域包含 case/control nimor alleles的数目。对UNIQ，包含在case/control里case-only non-reference alleles的数目。在C-alpha里，frequency breakdown，意思是哪些有特殊case/control count的minor allele的突变数目。
另外还有一些检验，比如step-up test, CMC test, KBAC test。

Permutation

绝大部分相关性检验基于permutation去得到empirical p-values。
维持tests之间的correlation：对于每一个检验的个体（variant, gene, pathway），一个一致的set的permutation会执行。因此，这会保留test statistic的correlation的pattern。
分层的permutation：如果INDDB提供了一个合适的factor，可以执行分层permutation：

–strata batch
Adaptive permutations: 对于每个检验对应的permutation的次数可以被指定：
–perm 10000
Permutation and missing data: default下，permutation是不管missing genotype data的（default下，任何有missing genotype的个体都会在做相关性分析之前被去除）。如果要用那些对于某个variant（或者a group of variants or gene-based tests）没有missing genotype data的个体，可以加参数如下：
–options fix-null

具体参考官网