【Med】KGGSEE 的使用

1 参考

1.1 官网

KGGSEE | PMG Lab

1.2 教程

在线教程
视频教程
参数详解

1.3 相关下载

主程序
相关库
教程
样例数据

2 环境配置

2.1 系统要求

Java >= 1.8。

2.2 下载

下载主程序相关库教程,解压 resources.zip 和 tutorials.zip,将 kggsee.jar 和 tutorials/ 和 resources/放在同一目录下。

下载不同人种的样例数据,以下是不同版本的数据。

reference genotypes: hg19
reference genotypes: hg38

对于具体疾病,需要下载疾病的单表达定量性状基因座(eQTL)汇总数据。

eQTL: hg19
eQTL: hg38

完成后,在 tutorials/ 打开命令行。

3 软件使用

3.1 合并 p p p

将 SNPs 的多个 p p p 值合并,使用 GATES 和 ECS 方法。

java -Xmx4g -jar ../kggsee.jar ^
  --sum-file ./scz_gwas_eur_chr1.tsv.gz ^
  --vcf-ref ./1kg_hg19_eur_chr1.vcf.gz ^
  --keep-ref ./VCFRefhg19/ ^
  --gene-assoc ^
  --out t1

参数说明。需注意的是, . / ./ ./ 表示当前目录, . . / ../ ../ 表示父目录。

名称描述
sum-fileGWAS 数据位置
vcf-ref人种参考数据位置
keep-ref格式化数据输出位置
gene-assoc开始基因关联测试
out输出名称
excel如果有,则输出为excel,否则txt

sum-file 中,GWAS数据一定要含有 SNP 坐标和 p p p 值。
以上结果将输出至 t1.gene.pvalue.txt

输出说明。

名称描述
Gene基因标识
#Var突变数
ECSPECS 法 p p p
GATESPGATES 法 p p p
Chrom染色体
Pos p p p 值最小突变的坐标
GWAS_Var_P p p p 值最小突变的 p p p

t1.gene.var.pvalue.txt.gz 保存了所有变异,而非 p p p 值最小的。

t1.qq.pdf 为分位图。

3.2 表型-组织关联和条件基因关联测试

使用 DESE 方法。

java -Xmx4g -jar ../kggsee.jar ^
  sum-file ./scz_gwas_eur_chr1.tsv.gz ^
  saved-ref ./VCFRefhg19/ ^
  expression-file ./resources/GTEx_v8_TMM_all.gene.meanSE.txt.gz ^
  gene-assoc-condi ^
  out t2

参数说明。

名称描述
sum-fileGWAS 数据位置
saved-ref格式化数据位置
expression-file基因信息,平均值和标准差
gene-assoc-condi开始分析
out输出名称

saved-ref 中,使用 3.1 中输出的格式化数据。

sum-file 中,GWAS数据一定要含有 SNP 坐标和 p p p 值。

expression-file 中,如果使用 GTEx_v8_TMM_all.gene.meanSE.txt,则是基因水平分析;如果使用 GTEx_v8_TMM_all.transcript.meanSE.txt,则是转录水平分析。

与 3.1 相同, p p p 值保存在 t2.gene.pvalue.txtt2.gene.var.pvalue.txt.gzt2.qq.pdf

条件基因关联测试的结果保存为 t2.gene.assoc.condi.txt

输出说明

名称描述
Gene基因标识
Chrom染色体
StartPos起始位置
EndPos终止位置
#Var突变数
GroupLD组序号
ECSPECS 法 p p p
CondiECSP条件基因关联测试 p p p
GeneScore选择性表达评分

Group中,条件 ECS 测试会按照连锁不平衡分组进行。
GeneScore中,得分高的基因将优先进入条件作用程序。

驱动组织优先级的结果保存在 t2.celltype.txt。这是个 Wilcoxon 秩和检验,目的如下。

检验表型相关基因的选择性表达中位数 是否显著高于 被询问组织中的其他基因。

输出说明。

名称描述
TissueName组织名
Unadjusted(p)未调整 p p p
Adjusted(p)调整后 p p p
Median(IQR)SigVsAll条件显著性基因和背景基因的中位数和四分位数

3.3 推断基因对表型的影响

即 EMIC,使用孟德尔随机化,将 SNPs 作为工具变量(IVs)。

java -Xmx4g -jar ../kggsee.jar ^
  --sum-file ./scz_gwas_eur_chr1.tsv.gz ^
  --saved-ref ./VCFRefhg19/ ^
  --eqtl-file ./GTEx_v8_gene_BrainBA9.eqtl.txt.gz ^
  --emic-plot-p 0.01 ^
  --beta-col OR ^
  --beta-type 2 ^
  --emic ^
  --out t3

参数说明。

名称描述
sum-fileGWAS 数据位置
saved-ref格式化数据位置
eqtl-fileSNP 对基因表达的影响
emic-plot-p p p p 的阈值
beta-col影响大小的列名
beta-type影响大小的类型
emic开始分析
out输出名称

sum-file 中,GWAS 数据需要包含 SNP 坐标、 p p p 值、先后等位基因频率、样本量和标准差。

saved-ref 中,使用 3.1 中输出的格式化数据。

eqtl-file 中,可以使用基因或转录水平的 SNP 值。

beta-type 中,0 表示表型的线性回归系数,1 表示 l n O R ln_{}{OR} lnOR,2 表示 O R OR OR (Odds Ratio)。

结果保存在 t3.emic.gene.txt

输出说明。

名称描述
Gene基因标识
#Var工具变量数
minP_EMIC p p p
Details_EMIC相关值
Chrom染色体
Pos p p p 值最小工具变量的位置
GWAS_Var_PGWAS 中工具变量 p p p
GWAS_Var_Beta效应大小
GWAS_Var_SE效应大小标准差

minP_EMIC 中,如果是转录水平的分析,则输出最小 p p p 值。

Details_EMIC 中,包含工具变量数、效应大小、标准差和 p p p 值。

turorial_3.emic.gene.var.tsv.gz 中包含了所有 eQTL。

t3.qq.pdf 为 GWAS 工具变量 p p p 值的分位图。

t3.emic.qq.pdf 为 EMIC 分析输出的 p p p 值。

t3.scatterplots.emic.pdf 保存了遗传与基因表达关联的散点图。EMIC p p p 值低于阈值的基因都单页保存。矩形表示工具变量,其颜色表示其与最显著的 GWAS 突变之间的连锁不平衡程度,红色矩形表示最显著。直线斜率表示估计的因果关系。矩形中的误差条表示系数估计值的标准差。

3.4 可遗传性分析

即 EHE 分析,使用 GWAS 数据库。

java -Xmx4g -jar ../kggsee.jar ^
  --sum-file ./scz_gwas_eur_chr1.tsv.gz ^
  --saved-ref ./VCFRefhg19/ ^
  --case-col Nca ^
  --control-col Nco ^
  --gene-herit ^
  --out t4

参数说明。

名称描述
sum-fileGWAS 数据位置
saved-ref基因型目录输出位置
case-col案例样本量列名
control-col对照样本量列名
gene-herit开始分析
out输出名称

sum-file 中,GWAS 数据需要包含 SNP 坐标、 p p p 值和样本量。

t4.gene.pvalue.txtt4.gene.var.pvalue.txt.gz 的样式与 3.1 类似,但多出两列。

输出说明。

名称描述
Herit可遗传性
HeritSE可遗传性标准差
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值