GSEApy:Python基因集富集分析完全指南
【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy
项目概述
GSEApy是一个功能强大的Python基因集富集分析工具,让生物信息学分析变得简单高效。该项目是GSEA(Gene Set Enrichment Analysis)的Python/Rust实现,提供了与GSEA桌面版本相同的文件格式,可以在Python交互式控制台中运行,无需切换到R环境。无论你是湿实验室研究员还是干实验室分析师,这款工具都能帮你快速完成基因集富集分析,生成专业图表,并轻松集成到数据分析工作流中。
核心功能特性
GSEApy提供7个子命令模块,覆盖了基因富集分析的各个方面:
gsea模块:执行标准的基因集富集分析,需要输入表达数据表、分类文件和基因集文件。
prerank模块:使用预排序相关性进行富集分析,是GSEA预排序工具的API接口。
ssgsea模块:执行单样本GSEA分析,适用于单个样本的基因集活性评估。
gsva模块:执行GSVA(Gene Set Variation Analysis)方法,由Hänzelmann等人开发。
replot模块:重现GSEA桌面版本的输出结果。
enrichr模块:使用Enrichr API进行基因集富集分析。
biomart模块:通过BioMart API帮助进行基因ID转换。
安装指南
通过conda安装(适用于MacOS_x86-64和Linux系统)
conda install -c bioconda gseapy
通过pip安装(支持Windows和MacOS_ARM64系统)
pip install gseapy
源码安装
如果pip安装失败,需要先安装Rust编译器:
curl https://sh.rustup.rs -sSf | sh -s -- -y
export PATH="$PATH:$HOME/.cargo/bin"
pip install git+git://github.com/zqfang/gseapy.git#egg=gseapy
快速入门
命令行使用示例
# 运行GSEA分析
gseapy gsea -d exptable.txt -c test.cls -g gene_sets.gmt -o test
# 运行预排序分析
gseapy prerank -r gsea_data.rnk -g gene_sets.gmt -o test
# 运行单样本GSEA
gseapy ssgsea -d expression.txt -g gene_sets.gmt -o test
# 运行GSVA分析
gseapy gsva -d expression.txt -g gene_sates.gmt -o test
# 使用Enrichr API
gseapy enrichr -i gene_list.txt -g KEGG_2016 -o test
Python交互式使用
import gseapy as gp
# 运行GSEA分析
gp.gsea(data='expression.txt', gene_sets='gene_sets.gmt', cls='test.cls', outdir='test')
# 运行预排序分析
gp.prerank(rnk='gsea_data.rnk', gene_sets='gene_sets.gmt', outdir='test')
# 运行单样本GSEA
gp.ssgsea(data="expression.txt", gene_sets="gene_sets.gmt", outdir='test')
# 运行GSVA分析
gp.gsva(data="expression.txt", gene_sets="gene_sets.gmt", outdir='test')
# 使用Enrichr分析基因列表
gene_list = ['SCARA3', 'LOC100044683', 'CMBL', 'CLIC6', 'IL13RA1', 'TACSTD2', 'DKKL1', 'CSF1', 'SYNPO2L', 'TINAGL1', 'PTX3', 'BGN', 'HERC1', 'EFNA1', 'CIB2', 'PMP22', 'TMEM173']
gp.enrichr(gene_list=gene_list, gene_sets='KEGG_2016', outdir='test')
应用场景
差异表达基因分析
利用GSEApy深入挖掘差异表达基因的生物学意义,发现关键通路。支持多种相关性计算方法,包括信噪比、t检验、差异比等。
单样本富集分析
通过ssGSEA评估单个样本中的基因集活性,为精准医疗提供支持。
富集结果可视化
GSEApy提供多种可视化选项,包括富集图、热图、点图、柱状图等,能够生成可直接用于发表的图表。
数据格式要求
GSEApy支持与GSEA桌面版本完全相同的文件格式:
表达数据:支持txt文件(FPKM、期望计数、TPM等)、GCT文件格式。
分类文件:CLS文件格式,定义样本分组。
基因集文件:GMT格式的基因集定义文件。
生态整合
GSEApy与主流数据科学工具完美兼容:
数据处理:基于Pandas进行高效数据处理。
数值计算:使用NumPy和SciPy进行科学计算。
可视化:基于Matplotlib生成专业图表。
网络请求:使用Requests进行API调用。
最佳实践建议
数据准备:确保输入数据格式正确,特别是基因列表和基因集文件。
参数调整:根据具体需求调整分析参数,如置换次数、富集阈值等。
结果解读:仔细解读GSEA结果,特别是富集图和统计指标。
背景基因设置:推荐使用实验确定的背景基因列表,如RNA-seq中表达的基因。
技术支持
GSEApy提供了完善的文档和示例,帮助用户快速上手。项目支持Python 3.7及以上版本,核心算法使用Rust实现,确保分析效率。
通过GSEApy,研究人员可以在Python环境中完成从数据预处理到结果可视化的完整基因富集分析流程,大大提高了生物信息学分析的效率和便利性。
【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考






