【Med】KGGSEE 的使用

原创已于 2024-10-06 02:32:01 修改 · 631 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2024-09-19 15:41:42 首次发布

部署运行你感兴趣的模型镜像

文章目录

1 参考
2 环境配置
- 2.1 系统要求
- 2.2 下载
3 软件使用

1 参考

1.1 官网

KGGSEE | PMG Lab

1.2 教程

在线教程
 视频教程
 参数详解

1.3 相关下载

主程序
 相关库
 教程
 样例数据

2 环境配置

2.1 系统要求

Java >= 1.8。

2.2 下载

下载主程序、相关库、教程，解压 resources.zip 和 tutorials.zip，将 kggsee.jar 和 tutorials/ 和 resources/放在同一目录下。

下载不同人种的样例数据，以下是不同版本的数据。

reference genotypes: hg19
reference genotypes: hg38

对于具体疾病，需要下载疾病的单表达定量性状基因座（eQTL）汇总数据。

eQTL: hg19
eQTL: hg38

完成后，在 tutorials/ 打开命令行。

3 软件使用

3.1 合并 $p$ 值

将 SNPs 的多个 $p$ 值合并，使用 GATES 和 ECS 方法。

java -Xmx4g -jar ../kggsee.jar ^
  --sum-file ./scz_gwas_eur_chr1.tsv.gz ^
  --vcf-ref ./1kg_hg19_eur_chr1.vcf.gz ^
  --keep-ref ./VCFRefhg19/ ^
  --gene-assoc ^
  --out t1

参数说明。需注意的是， $./$ 表示当前目录， $../$ 表示父目录。

名称	描述
sum-file	GWAS 数据位置
vcf-ref	人种参考数据位置
keep-ref	格式化数据输出位置
gene-assoc	开始基因关联测试
out	输出名称
excel	如果有，则输出为excel，否则txt

sum-file 中，GWAS数据一定要含有 SNP 坐标和 $p$ 值。
以上结果将输出至 t1.gene.pvalue.txt。

输出说明。

名称	描述
Gene	基因标识
#Var	突变数
ECSP	ECS 法 $p$ 值
GATESP	GATES 法 $p$ 值
Chrom	染色体
Pos	$p$ 值最小突变的坐标
GWAS_Var_P	$p$ 值最小突变的 $p$ 值

t1.gene.var.pvalue.txt.gz 保存了所有变异，而非 $p$ 值最小的。

t1.qq.pdf 为分位图。

3.2 表型-组织关联和条件基因关联测试

使用 DESE 方法。

java -Xmx4g -jar ../kggsee.jar ^
  sum-file ./scz_gwas_eur_chr1.tsv.gz ^
  saved-ref ./VCFRefhg19/ ^
  expression-file ./resources/GTEx_v8_TMM_all.gene.meanSE.txt.gz ^
  gene-assoc-condi ^
  out t2

参数说明。

名称	描述
sum-file	GWAS 数据位置
saved-ref	格式化数据位置
expression-file	基因信息，平均值和标准差
gene-assoc-condi	开始分析
out	输出名称

saved-ref 中，使用 3.1 中输出的格式化数据。

sum-file 中，GWAS数据一定要含有 SNP 坐标和 $p$ 值。

expression-file 中，如果使用 GTEx_v8_TMM_all.gene.meanSE.txt，则是基因水平分析；如果使用 GTEx_v8_TMM_all.transcript.meanSE.txt，则是转录水平分析。

与 3.1 相同， $p$ 值保存在 t2.gene.pvalue.txt、t2.gene.var.pvalue.txt.gz 和 t2.qq.pdf。

条件基因关联测试的结果保存为 t2.gene.assoc.condi.txt。

输出说明

名称	描述
Gene	基因标识
Chrom	染色体
StartPos	起始位置
EndPos	终止位置
#Var	突变数
Group	LD组序号
ECSP	ECS 法 $p$ 值
CondiECSP	条件基因关联测试 $p$ 值
GeneScore	选择性表达评分

Group中，条件 ECS 测试会按照连锁不平衡分组进行。
GeneScore中，得分高的基因将优先进入条件作用程序。

驱动组织优先级的结果保存在 t2.celltype.txt。这是个 Wilcoxon 秩和检验，目的如下。

检验表型相关基因的选择性表达中位数是否显著高于被询问组织中的其他基因。

输出说明。

名称	描述
TissueName	组织名
Unadjusted(p)	未调整 $p$ 值
Adjusted(p)	调整后 $p$ 值
Median(IQR)SigVsAll	条件显著性基因和背景基因的中位数和四分位数

3.3 推断基因对表型的影响

即 EMIC，使用孟德尔随机化，将 SNPs 作为工具变量（IVs）。

java -Xmx4g -jar ../kggsee.jar ^
  --sum-file ./scz_gwas_eur_chr1.tsv.gz ^
  --saved-ref ./VCFRefhg19/ ^
  --eqtl-file ./GTEx_v8_gene_BrainBA9.eqtl.txt.gz ^
  --emic-plot-p 0.01 ^
  --beta-col OR ^
  --beta-type 2 ^
  --emic ^
  --out t3

参数说明。

名称	描述
sum-file	GWAS 数据位置
saved-ref	格式化数据位置
eqtl-file	SNP 对基因表达的影响
emic-plot-p	$p$ 的阈值
beta-col	影响大小的列名
beta-type	影响大小的类型
emic	开始分析
out	输出名称

sum-file 中，GWAS 数据需要包含 SNP 坐标、 $p$ 值、先后等位基因频率、样本量和标准差。

saved-ref 中，使用 3.1 中输出的格式化数据。

eqtl-file 中，可以使用基因或转录水平的 SNP 值。

beta-type 中，0 表示表型的线性回归系数，1 表示 $ln_{}{OR}$ ，2 表示 $OR$ (Odds Ratio)。

结果保存在 t3.emic.gene.txt。

输出说明。

名称	描述
Gene	基因标识
#Var	工具变量数
minP_EMIC	$p$ 值
Details_EMIC	相关值
Chrom	染色体
Pos	$p$ 值最小工具变量的位置
GWAS_Var_P	GWAS 中工具变量 $p$ 值
GWAS_Var_Beta	效应大小
GWAS_Var_SE	效应大小标准差

minP_EMIC 中，如果是转录水平的分析，则输出最小 $p$ 值。

Details_EMIC 中，包含工具变量数、效应大小、标准差和 $p$ 值。

turorial_3.emic.gene.var.tsv.gz 中包含了所有 eQTL。

t3.qq.pdf 为 GWAS 工具变量 $p$ 值的分位图。

t3.emic.qq.pdf 为 EMIC 分析输出的 $p$ 值。

t3.scatterplots.emic.pdf 保存了遗传与基因表达关联的散点图。EMIC $p$ 值低于阈值的基因都单页保存。矩形表示工具变量，其颜色表示其与最显著的 GWAS 突变之间的连锁不平衡程度，红色矩形表示最显著。直线斜率表示估计的因果关系。矩形中的误差条表示系数估计值的标准差。

3.4 可遗传性分析

即 EHE 分析，使用 GWAS 数据库。

java -Xmx4g -jar ../kggsee.jar ^
  --sum-file ./scz_gwas_eur_chr1.tsv.gz ^
  --saved-ref ./VCFRefhg19/ ^
  --case-col Nca ^
  --control-col Nco ^
  --gene-herit ^
  --out t4

参数说明。

名称	描述
sum-file	GWAS 数据位置
saved-ref	基因型目录输出位置
case-col	案例样本量列名
control-col	对照样本量列名
gene-herit	开始分析
out	输出名称

sum-file 中，GWAS 数据需要包含 SNP 坐标、 $p$ 值和样本量。

t4.gene.pvalue.txt 和 t4.gene.var.pvalue.txt.gz 的样式与 3.1 类似，但多出两列。

输出说明。

名称	描述
Herit	可遗传性
HeritSE	可遗传性标准差

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

【Med】KGGSEE 的使用

文章目录

1 参考

1.1 官网

1.2 教程

1.3 相关下载

2 环境配置

2.1 系统要求

2.2 下载

3 软件使用

3.1 合并 p p p 值

3.2 表型-组织关联和条件基因关联测试

3.3 推断基因对表型的影响

3.4 可遗传性分析

1 条评论

3.1 合并 $p$ 值