GSEApy:Python基因集富集分析完全指南

GSEApy:Python基因集富集分析完全指南

【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 【免费下载链接】GSEApy 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy

项目概述

GSEApy是一个功能强大的Python基因集富集分析工具,让生物信息学分析变得简单高效。该项目是GSEA(Gene Set Enrichment Analysis)的Python/Rust实现,提供了与GSEA桌面版本相同的文件格式,可以在Python交互式控制台中运行,无需切换到R环境。无论你是湿实验室研究员还是干实验室分析师,这款工具都能帮你快速完成基因集富集分析,生成专业图表,并轻松集成到数据分析工作流中。

核心功能特性

GSEApy提供7个子命令模块,覆盖了基因富集分析的各个方面:

gsea模块:执行标准的基因集富集分析,需要输入表达数据表、分类文件和基因集文件。

prerank模块:使用预排序相关性进行富集分析,是GSEA预排序工具的API接口。

ssgsea模块:执行单样本GSEA分析,适用于单个样本的基因集活性评估。

gsva模块:执行GSVA(Gene Set Variation Analysis)方法,由Hänzelmann等人开发。

replot模块:重现GSEA桌面版本的输出结果。

enrichr模块:使用Enrichr API进行基因集富集分析。

biomart模块:通过BioMart API帮助进行基因ID转换。

安装指南

通过conda安装(适用于MacOS_x86-64和Linux系统)

conda install -c bioconda gseapy

通过pip安装(支持Windows和MacOS_ARM64系统)

pip install gseapy

源码安装

如果pip安装失败,需要先安装Rust编译器:

curl https://sh.rustup.rs -sSf | sh -s -- -y
export PATH="$PATH:$HOME/.cargo/bin"
pip install git+git://github.com/zqfang/gseapy.git#egg=gseapy

快速入门

命令行使用示例

# 运行GSEA分析
gseapy gsea -d exptable.txt -c test.cls -g gene_sets.gmt -o test

# 运行预排序分析
gseapy prerank -r gsea_data.rnk -g gene_sets.gmt -o test

# 运行单样本GSEA
gseapy ssgsea -d expression.txt -g gene_sets.gmt -o test

# 运行GSVA分析
gseapy gsva -d expression.txt -g gene_sates.gmt -o test

# 使用Enrichr API
gseapy enrichr -i gene_list.txt -g KEGG_2016 -o test

Python交互式使用

import gseapy as gp

# 运行GSEA分析
gp.gsea(data='expression.txt', gene_sets='gene_sets.gmt', cls='test.cls', outdir='test')

# 运行预排序分析
gp.prerank(rnk='gsea_data.rnk', gene_sets='gene_sets.gmt', outdir='test')

# 运行单样本GSEA
gp.ssgsea(data="expression.txt", gene_sets="gene_sets.gmt", outdir='test')

# 运行GSVA分析
gp.gsva(data="expression.txt", gene_sets="gene_sets.gmt", outdir='test')

# 使用Enrichr分析基因列表
gene_list = ['SCARA3', 'LOC100044683', 'CMBL', 'CLIC6', 'IL13RA1', 'TACSTD2', 'DKKL1', 'CSF1', 'SYNPO2L', 'TINAGL1', 'PTX3', 'BGN', 'HERC1', 'EFNA1', 'CIB2', 'PMP22', 'TMEM173']
gp.enrichr(gene_list=gene_list, gene_sets='KEGG_2016', outdir='test')

应用场景

差异表达基因分析

利用GSEApy深入挖掘差异表达基因的生物学意义,发现关键通路。支持多种相关性计算方法,包括信噪比、t检验、差异比等。

GSEA分析结果

单样本富集分析

通过ssGSEA评估单个样本中的基因集活性,为精准医疗提供支持。

单样本GSEA示意图

富集结果可视化

GSEApy提供多种可视化选项,包括富集图、热图、点图、柱状图等,能够生成可直接用于发表的图表。

富集分析示意图

数据格式要求

GSEApy支持与GSEA桌面版本完全相同的文件格式:

表达数据:支持txt文件(FPKM、期望计数、TPM等)、GCT文件格式。

分类文件:CLS文件格式,定义样本分组。

基因集文件:GMT格式的基因集定义文件。

生态整合

GSEApy与主流数据科学工具完美兼容:

数据处理:基于Pandas进行高效数据处理。

数值计算:使用NumPy和SciPy进行科学计算。

可视化:基于Matplotlib生成专业图表。

网络请求:使用Requests进行API调用。

最佳实践建议

数据准备:确保输入数据格式正确,特别是基因列表和基因集文件。

参数调整:根据具体需求调整分析参数,如置换次数、富集阈值等。

结果解读:仔细解读GSEA结果,特别是富集图和统计指标。

背景基因设置:推荐使用实验确定的背景基因列表,如RNA-seq中表达的基因。

技术支持

GSEApy提供了完善的文档和示例,帮助用户快速上手。项目支持Python 3.7及以上版本,核心算法使用Rust实现,确保分析效率。

通过GSEApy,研究人员可以在Python环境中完成从数据预处理到结果可视化的完整基因富集分析流程,大大提高了生物信息学分析的效率和便利性。

【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 【免费下载链接】GSEApy 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值