PLINK/seq可以检测表型-表型之间的相关性,用permutation或者asymptotic statistics。可以基于单变异,基因,也可以基于gene sets。
single variant association
检测一个变异和疾病(dichotomous outcome)的相关性:
pseq proj v-assoc --phenotype my.phenotype
当对于单个VCF文件,可以不用创建项目。在例子中,–phenotype含有2个参数:文件名和表型label:
pseq data.vcf.gz v-assoc --phenotype phenotype.txt my.phenotype
Default情况下,v-assoc 用Fisher’s exact test做等位基因的,显性的和隐性的单突变检验。但是,要基于特定次数permutation来计算empirical significance values,要加上:
--perm 10000
若用适应性的permutations:
--perm -1
具体输出详见下图:

Linear and logistic regression tests
依然基于单个突变,用logistic regression,可用glm:
pseq proj glm --phenotype phe1 --covar mds1 mds2
这类检验会基于表型(定量表型或者二分表型)。目前仅asymptotic p-values可用。对于罕见突变,这个分析的power较低,甚至可能不可行(一个mask option比如maf=0.02要在跑相关性分析前筛一下。)
Gene/group-based association tests
做set-based association(set可用为gene, pathway, or other entity):
pseq proj assoc --phenotype my.phenotype --msk loc.group=refseq
assoc命令目前假定一个二分的表型,在default下,这个命令用adaptive permutation。如果要用固定的permutation数,则要加:
--perm 10000
其他筛选可以基于mask功能来实现,这里grouping factor必须用--refseq(包含在LOCDB里)。特定的,如果着眼于罕见突变,可以用mask来筛选minor allele count or frequency:
pseq proj assoc --phenotype phe1 --mask loc.group=refseq mac=2-20

其中,NVAR表示突变数目。Default下,是基于burden test的case-control minor alleles的比较。P值基于permutation,经验显著性(empirical significance)。I列表示proportion of null replicates for which the best test statistic was tied. 这是一种测量统计上经验分布分离性的方法,可以有效给出一个可能的最小经验P-value。比如一个基因仅有一个突变,且这个突变在case和control里出现次数一样,那么I=0.5。过滤掉过高的I可以使得P值的分布更加合理。这个和GWAS里去除低minor allele frequencies (eg. < 1%)是差不多的。
PSEQ有一系列的gene-based的方法。
| Ouput label | Statistic | –options | Directionality |
|---|---|---|---|
| BURDEN | Excess of rare alleles in cases compard to controls | no-burden (tests included by default, use to remove)d | 1-sided |
| UNIQ | Count of case-unique rare alleles | uniq | 1-sided |
| VT | variable threshold test | vt | 1-sided |
| FQRWGT | Frequency-weighted test, in spirit of Madsen-Bowning | fw | 1-sided |
| CALPHA | C-alpha test | calpha | 2-sided |
| SUMSTAT | sum of single-site statistics | sumstat | 2-sided |
对于BURDEN test,DESC域包含 case/control nimor alleles的数目。对UNIQ,包含在case/control里case-only non-reference alleles的数目。在C-alpha里,frequency breakdown,意思是哪些有特殊case/control count的minor allele的突变数目。
另外还有一些检验,比如step-up test, CMC test, KBAC test。
Permutation
绝大部分相关性检验基于permutation去得到empirical p-values。
维持tests之间的correlation:对于每一个检验的个体(variant, gene, pathway),一个一致的set的permutation会执行。因此,这会保留test statistic的correlation的pattern。
分层的permutation:如果INDDB提供了一个合适的factor,可以执行分层permutation:
–strata batch
Adaptive permutations: 对于每个检验对应的permutation的次数可以被指定:
–perm 10000
Permutation and missing data: default下,permutation是不管missing genotype data的(default下,任何有missing genotype的个体都会在做相关性分析之前被去除)。如果要用那些对于某个variant(或者a group of variants or gene-based tests)没有missing genotype data的个体,可以加参数如下:
–options fix-null
具体参考官网
PLINK/seq遗传关联分析

本文介绍PLINK/seq工具在遗传学研究中的应用,包括单变异、基因及基因集关联性检测方法,如Burden、Uniq、VT、FQRWGT、C-alpha和Sumstat测试。同时,讲解了基于置换的统计方法,如线性和逻辑回归测试,以及如何处理缺失基因型数据。
6万+

被折叠的 条评论
为什么被折叠?



