文章目录
1 参考
1.1 官网
1.2 教程
1.3 相关下载
2 环境配置
2.1 系统要求
Java >= 1.8。
2.2 下载
下载主程序、相关库、教程,解压 resources.zip 和 tutorials.zip,将 kggsee.jar 和 tutorials/ 和 resources/放在同一目录下。
下载不同人种的样例数据,以下是不同版本的数据。
对于具体疾病,需要下载疾病的单表达定量性状基因座(eQTL)汇总数据。
完成后,在 tutorials/ 打开命令行。
3 软件使用
3.1 合并 p p p 值
将 SNPs 的多个 p p p 值合并,使用 GATES 和 ECS 方法。
java -Xmx4g -jar ../kggsee.jar ^
--sum-file ./scz_gwas_eur_chr1.tsv.gz ^
--vcf-ref ./1kg_hg19_eur_chr1.vcf.gz ^
--keep-ref ./VCFRefhg19/ ^
--gene-assoc ^
--out t1
参数说明。需注意的是, . / ./ ./ 表示当前目录, . . / ../ ../ 表示父目录。
名称 | 描述 |
---|---|
sum-file | GWAS 数据位置 |
vcf-ref | 人种参考数据位置 |
keep-ref | 格式化数据输出位置 |
gene-assoc | 开始基因关联测试 |
out | 输出名称 |
excel | 如果有,则输出为excel,否则txt |
sum-file 中,GWAS数据一定要含有 SNP 坐标和
p
p
p 值。
以上结果将输出至 t1.gene.pvalue.txt。
输出说明。
名称 | 描述 |
---|---|
Gene | 基因标识 |
#Var | 突变数 |
ECSP | ECS 法 p p p 值 |
GATESP | GATES 法 p p p 值 |
Chrom | 染色体 |
Pos | p p p 值最小突变的坐标 |
GWAS_Var_P | p p p 值最小突变的 p p p 值 |
t1.gene.var.pvalue.txt.gz 保存了所有变异,而非 p p p 值最小的。
t1.qq.pdf 为分位图。
3.2 表型-组织关联和条件基因关联测试
使用 DESE 方法。
java -Xmx4g -jar ../kggsee.jar ^
sum-file ./scz_gwas_eur_chr1.tsv.gz ^
saved-ref ./VCFRefhg19/ ^
expression-file ./resources/GTEx_v8_TMM_all.gene.meanSE.txt.gz ^
gene-assoc-condi ^
out t2
参数说明。
名称 | 描述 |
---|---|
sum-file | GWAS 数据位置 |
saved-ref | 格式化数据位置 |
expression-file | 基因信息,平均值和标准差 |
gene-assoc-condi | 开始分析 |
out | 输出名称 |
saved-ref 中,使用 3.1 中输出的格式化数据。
sum-file 中,GWAS数据一定要含有 SNP 坐标和 p p p 值。
expression-file 中,如果使用 GTEx_v8_TMM_all.gene.meanSE.txt,则是基因水平分析;如果使用 GTEx_v8_TMM_all.transcript.meanSE.txt,则是转录水平分析。
与 3.1 相同, p p p 值保存在 t2.gene.pvalue.txt、t2.gene.var.pvalue.txt.gz 和 t2.qq.pdf。
条件基因关联测试的结果保存为 t2.gene.assoc.condi.txt。
输出说明
名称 | 描述 |
---|---|
Gene | 基因标识 |
Chrom | 染色体 |
StartPos | 起始位置 |
EndPos | 终止位置 |
#Var | 突变数 |
Group | LD组序号 |
ECSP | ECS 法 p p p 值 |
CondiECSP | 条件基因关联测试 p p p 值 |
GeneScore | 选择性表达评分 |
Group中,条件 ECS 测试会按照连锁不平衡分组进行。
GeneScore中,得分高的基因将优先进入条件作用程序。
驱动组织优先级的结果保存在 t2.celltype.txt。这是个 Wilcoxon 秩和检验,目的如下。
检验表型相关基因的选择性表达中位数 是否显著高于 被询问组织中的其他基因。
输出说明。
名称 | 描述 |
---|---|
TissueName | 组织名 |
Unadjusted(p) | 未调整 p p p 值 |
Adjusted(p) | 调整后 p p p 值 |
Median(IQR)SigVsAll | 条件显著性基因和背景基因的中位数和四分位数 |
3.3 推断基因对表型的影响
即 EMIC,使用孟德尔随机化,将 SNPs 作为工具变量(IVs)。
java -Xmx4g -jar ../kggsee.jar ^
--sum-file ./scz_gwas_eur_chr1.tsv.gz ^
--saved-ref ./VCFRefhg19/ ^
--eqtl-file ./GTEx_v8_gene_BrainBA9.eqtl.txt.gz ^
--emic-plot-p 0.01 ^
--beta-col OR ^
--beta-type 2 ^
--emic ^
--out t3
参数说明。
名称 | 描述 |
---|---|
sum-file | GWAS 数据位置 |
saved-ref | 格式化数据位置 |
eqtl-file | SNP 对基因表达的影响 |
emic-plot-p | p p p 的阈值 |
beta-col | 影响大小的列名 |
beta-type | 影响大小的类型 |
emic | 开始分析 |
out | 输出名称 |
sum-file 中,GWAS 数据需要包含 SNP 坐标、 p p p 值、先后等位基因频率、样本量和标准差。
saved-ref 中,使用 3.1 中输出的格式化数据。
eqtl-file 中,可以使用基因或转录水平的 SNP 值。
beta-type 中,0 表示表型的线性回归系数,1 表示 l n O R ln_{}{OR} lnOR,2 表示 O R OR OR (Odds Ratio)。
结果保存在 t3.emic.gene.txt。
输出说明。
名称 | 描述 |
---|---|
Gene | 基因标识 |
#Var | 工具变量数 |
minP_EMIC | p p p 值 |
Details_EMIC | 相关值 |
Chrom | 染色体 |
Pos | p p p 值最小工具变量的位置 |
GWAS_Var_P | GWAS 中工具变量 p p p 值 |
GWAS_Var_Beta | 效应大小 |
GWAS_Var_SE | 效应大小标准差 |
minP_EMIC 中,如果是转录水平的分析,则输出最小 p p p 值。
Details_EMIC 中,包含工具变量数、效应大小、标准差和 p p p 值。
turorial_3.emic.gene.var.tsv.gz 中包含了所有 eQTL。
t3.qq.pdf 为 GWAS 工具变量 p p p 值的分位图。
t3.emic.qq.pdf 为 EMIC 分析输出的 p p p 值。
t3.scatterplots.emic.pdf 保存了遗传与基因表达关联的散点图。EMIC p p p 值低于阈值的基因都单页保存。矩形表示工具变量,其颜色表示其与最显著的 GWAS 突变之间的连锁不平衡程度,红色矩形表示最显著。直线斜率表示估计的因果关系。矩形中的误差条表示系数估计值的标准差。
3.4 可遗传性分析
即 EHE 分析,使用 GWAS 数据库。
java -Xmx4g -jar ../kggsee.jar ^
--sum-file ./scz_gwas_eur_chr1.tsv.gz ^
--saved-ref ./VCFRefhg19/ ^
--case-col Nca ^
--control-col Nco ^
--gene-herit ^
--out t4
参数说明。
名称 | 描述 |
---|---|
sum-file | GWAS 数据位置 |
saved-ref | 基因型目录输出位置 |
case-col | 案例样本量列名 |
control-col | 对照样本量列名 |
gene-herit | 开始分析 |
out | 输出名称 |
sum-file 中,GWAS 数据需要包含 SNP 坐标、 p p p 值和样本量。
t4.gene.pvalue.txt 和 t4.gene.var.pvalue.txt.gz 的样式与 3.1 类似,但多出两列。
输出说明。
名称 | 描述 |
---|---|
Herit | 可遗传性 |
HeritSE | 可遗传性标准差 |