GSEApy:Python基因集富集分析工具全面指南
【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy
GSEApy(Gene Set Enrichment Analysis in Python)是一个功能强大的Python/Rust实现,专门用于执行基因集富集分析和Enrichr的封装。该工具支持RNA-seq、ChIP-seq和微阵列数据,能够方便地进行GO富集分析,并生成高质量的出版级图表。
核心功能模块
GSEApy提供七大主要分析模块,每个模块都有其特定的应用场景和输入要求:
GSEA分析模块
该模块能够产生标准的GSEA分析结果。输入要求包括表达数据文件(FPKM、期望计数、TPM等格式)、cls文件(样本分类信息)以及gmt格式的基因集文件。支持多种相关性计算方法,包括信号噪声比、t检验、差异倍数等。
Prerank预排序分析
Prerank模块是GSEA预排序工具的API接口,输入期望预排序的基因列表数据集,包含相关性值,以.rnk格式提供。
单样本GSEA分析
ssGSEA模块执行单样本GSEA分析,输入可以是pd.Series(按基因名称索引)、pd.DataFrame或GCT文件,配合GMT文件使用。该方法特别适合分析单个样本的基因集活性。
GSVA基因集变异分析
GSVA模块实现Hänzelmann等人的GSVA方法,输入格式与ssGSEA相同。
结果重绘功能
replot模块能够重现GSEA桌面版本的输出结果,只需要提供GSEA桌面版结果目录即可。
Enrichr富集分析
enrichr模块允许用户使用Enrichr API进行基因集富集分析,运行速度极快。
BioMart数据查询
biomart模块帮助用户使用BioMart API转换基因ID。
技术架构特点
GSEApy采用Python与Rust混合编程架构,结合了Python的易用性和Rust的高性能优势。项目包含完整的算法实现、统计计算和可视化组件。
安装与配置
GSEApy支持多种安装方式:
通过conda安装(适用于MacOS_x86-64和Linux系统):
conda install -c bioconda gseapy
通过pip安装(适用于Windows和MacOS_ARM64系统):
pip install gseapy
系统依赖要求
- Python 3.7及以上版本
- Rust编译器(适用于gseapy > 0.11.0版本)
- 运行时依赖:NumPy、SciPy、Pandas、Matplotlib、Requests
使用方法详解
命令行使用
GSEApy提供完整的命令行接口,用户可以通过简单的命令执行复杂的分析任务:
# 运行GSEA分析
gseapy gsea -d exptable.txt -c test.cls -g gene_sets.gmt -o test
# 运行预排序分析
gseapy prerank -r gsea_data.rnk -g gene_sets.gmt -o test
# 执行单样本GSEA
gseapy ssgsea -d expression.txt -g gene_sets.gmt -o test
# 使用Enrichr API
gseapy enrichr -i gene_list.txt -g KEGG_2016 -o test
Python交互式使用
在Python环境中,用户可以更灵活地使用GSEApy:
import gseapy
# 运行GSEA分析
gseapy.gsea(data='expression.txt', gene_sets='gene_sets.gmt', cls='test.cls', outdir='test')
# 运行预排序分析
gseapy.prerank(rnk='gsea_data.rnk', gene_sets='gene_sets.gmt', outdir='test')
支持的基因集库
GSEApy支持丰富的基因集库资源,包括:
- KEGG通路数据库
- GO生物过程、分子功能和细胞组分
- Reactome通路数据库
- WikiPathways通路数据库
- 人类基因图谱
- 小鼠基因图谱等
实际应用案例
单细胞RNA-seq数据分析
GSEApy特别适合单细胞RNA-seq数据的分析,能够有效识别细胞类型特异性基因集活性。
疾病机制研究
通过分析差异表达基因在特定通路中的富集情况,帮助研究人员发现与疾病相关的关键生物学通路。
输出结果解读
GSEApy分析结果包含丰富的信息:
- 富集分数(ES):反映基因集在排序列表顶端或底端的富集程度
- 标准化富集分数(NES):考虑基因集大小的标准化分数
- P值:基于置换检验的显著性水平
- FDR:多重检验校正后的错误发现率
性能优化特性
GSEApy在性能方面具有显著优势:
- 多线程支持:充分利用多核处理器性能
- 内存优化:高效处理大规模数据集
- 并行计算:支持批量作业处理
扩展功能
自定义基因集
用户可以根据研究需求创建自定义基因集,支持dict格式或gmt文件格式输入。
高级可视化
提供多种可视化选项:
- 富集图
- 热图
- 条形图
- 散点图等
GSEApy是一个功能全面、性能优越的基因集富集分析工具,无论您是生物信息学专家还是生物学研究人员,都能从中受益。该工具的设计充分考虑了用户体验,既适合湿实验室用户,也适合干实验室用户使用。
【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考





