GSEApy:Python基因集富集分析工具全面指南

GSEApy:Python基因集富集分析工具全面指南

【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 【免费下载链接】GSEApy 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy

GSEApy(Gene Set Enrichment Analysis in Python)是一个功能强大的Python/Rust实现,专门用于执行基因集富集分析和Enrichr的封装。该工具支持RNA-seq、ChIP-seq和微阵列数据,能够方便地进行GO富集分析,并生成高质量的出版级图表。

核心功能模块

GSEApy提供七大主要分析模块,每个模块都有其特定的应用场景和输入要求:

GSEA分析模块

该模块能够产生标准的GSEA分析结果。输入要求包括表达数据文件(FPKM、期望计数、TPM等格式)、cls文件(样本分类信息)以及gmt格式的基因集文件。支持多种相关性计算方法,包括信号噪声比、t检验、差异倍数等。

Prerank预排序分析

Prerank模块是GSEA预排序工具的API接口,输入期望预排序的基因列表数据集,包含相关性值,以.rnk格式提供。

单样本GSEA分析

ssGSEA模块执行单样本GSEA分析,输入可以是pd.Series(按基因名称索引)、pd.DataFrame或GCT文件,配合GMT文件使用。该方法特别适合分析单个样本的基因集活性。

GSVA基因集变异分析

GSVA模块实现Hänzelmann等人的GSVA方法,输入格式与ssGSEA相同。

结果重绘功能

replot模块能够重现GSEA桌面版本的输出结果,只需要提供GSEA桌面版结果目录即可。

Enrichr富集分析

enrichr模块允许用户使用Enrichr API进行基因集富集分析,运行速度极快。

BioMart数据查询

biomart模块帮助用户使用BioMart API转换基因ID。

技术架构特点

GSEApy采用Python与Rust混合编程架构,结合了Python的易用性和Rust的高性能优势。项目包含完整的算法实现、统计计算和可视化组件。

GSEA分析结果示例

安装与配置

GSEApy支持多种安装方式:

通过conda安装(适用于MacOS_x86-64和Linux系统):

conda install -c bioconda gseapy

通过pip安装(适用于Windows和MacOS_ARM64系统):

pip install gseapy

系统依赖要求

  • Python 3.7及以上版本
  • Rust编译器(适用于gseapy > 0.11.0版本)
  • 运行时依赖:NumPy、SciPy、Pandas、Matplotlib、Requests

使用方法详解

命令行使用

GSEApy提供完整的命令行接口,用户可以通过简单的命令执行复杂的分析任务:

# 运行GSEA分析
gseapy gsea -d exptable.txt -c test.cls -g gene_sets.gmt -o test

# 运行预排序分析
gseapy prerank -r gsea_data.rnk -g gene_sets.gmt -o test

# 执行单样本GSEA
gseapy ssgsea -d expression.txt -g gene_sets.gmt -o test

# 使用Enrichr API
gseapy enrichr -i gene_list.txt -g KEGG_2016 -o test

Python交互式使用

在Python环境中,用户可以更灵活地使用GSEApy:

import gseapy

# 运行GSEA分析
gseapy.gsea(data='expression.txt', gene_sets='gene_sets.gmt', cls='test.cls', outdir='test')

# 运行预排序分析
gseapy.prerank(rnk='gsea_data.rnk', gene_sets='gene_sets.gmt', outdir='test')

支持的基因集库

GSEApy支持丰富的基因集库资源,包括:

  • KEGG通路数据库
  • GO生物过程、分子功能和细胞组分
  • Reactome通路数据库
  • WikiPathways通路数据库
  • 人类基因图谱
  • 小鼠基因图谱等

富集分析结果可视化

实际应用案例

单细胞RNA-seq数据分析

GSEApy特别适合单细胞RNA-seq数据的分析,能够有效识别细胞类型特异性基因集活性。

疾病机制研究

通过分析差异表达基因在特定通路中的富集情况,帮助研究人员发现与疾病相关的关键生物学通路。

输出结果解读

GSEApy分析结果包含丰富的信息:

  • 富集分数(ES):反映基因集在排序列表顶端或底端的富集程度
  • 标准化富集分数(NES):考虑基因集大小的标准化分数
  • P值:基于置换检验的显著性水平
  • FDR:多重检验校正后的错误发现率

单样本GSEA分析示意图

性能优化特性

GSEApy在性能方面具有显著优势:

  • 多线程支持:充分利用多核处理器性能
  • 内存优化:高效处理大规模数据集
  • 并行计算:支持批量作业处理

扩展功能

自定义基因集

用户可以根据研究需求创建自定义基因集,支持dict格式或gmt文件格式输入。

高级可视化

提供多种可视化选项:

  • 富集图
  • 热图
  • 条形图
  • 散点图等

GSEApy是一个功能全面、性能优越的基因集富集分析工具,无论您是生物信息学专家还是生物学研究人员,都能从中受益。该工具的设计充分考虑了用户体验,既适合湿实验室用户,也适合干实验室用户使用。

【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 【免费下载链接】GSEApy 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值