GSEApy基因富集分析工具完全指南
【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy
GSEApy是一款强大的Python/Rust实现的基因集富集分析工具,专门用于RNA-seq、ChIP-seq和微阵列数据的分析。该工具能够方便地进行GO富集分析,并生成高质量的出版级图表,是生物信息学研究和生物医学数据分析的重要工具。
核心功能模块
GSEApy提供七个主要的分析模块,每个模块针对不同的分析需求:
-
gsea模块:执行标准基因集富集分析,需要表达矩阵txt文件、cls文件和gmt格式的基因集文件。
-
prerank模块:进行预排序基因分析,需要.rnk格式的预排序基因列表和gmt格式的基因集文件。
-
ssgsea模块:执行单样本GSEA分析,支持DataFrame和GCT文件格式。
-
gsva模块:进行基因集变异分析,输入格式与ssgsea相同。
-
replot模块:重绘GSEA桌面版结果图表,只需要提供GSEA桌面版输出结果的位置。
-
enrichr模块:通过Enrichr API进行基因集富集分析,运行速度极快。
-
biomart模块:通过BioMart API帮助转换基因ID。
安装方法
GSEApy支持多种安装方式:
# 通过conda安装(适用于MacOS和Linux)
conda install -c bioconda gseapy
# 通过pip安装(适用于Windows和MacOS ARM64)
pip install gseapy
数据准备指南
表达数据文件
表达数据文件应为表格文本格式,包含基因表达值。支持FPKM、期望计数、TPM等多种表达量单位。文件结构包含基因符号列和样本表达值列。
样本分组文件(cls文件)
cls文件用于指定样本的分组信息,包含三行内容:
- 第一行:总样本数和表型数量
- 第二行:表型类别名称
- 第三行:样本分组属性
基因集文件(gmt格式)
gmt文件包含基因集数据库信息,可以从GSEA或Enrichr网站下载,也可以使用Enrichr库名称。
使用示例
命令行使用
# 运行GSEA分析
gseapy gsea -d exptable.txt -c test.cls -g gene_sets.gmt -o test
# 运行Prerank分析
gseapy prerank -r gsea_data.rnk -g gene_sets.gmt -o test
# 运行ssGSEA分析
gseapy ssgsea -d expression.txt -g gene_sets.gmt -o test
# 运行GSVA分析
gseapy gsva -d expression.txt -g gene_sets.gmt -o test
# 使用replot重绘图表
gseapy replot -i ./Gsea.reports -o test
# 使用enrichr API
gseapy enrichr -i gene_list.txt -g KEGG_2016 -o test
Python交互式使用
import gseapy
# 运行GSEA分析
gseapy.gsea(data='expression.txt', gene_sets='gene_sets.gmt', cls='test.cls', outdir='test')
# 运行Prerank分析
gseapy.prerank(rnk='gsea_data.rnk', gene_sets='gene_sets.gmt', outdir='test')
# 运行ssGSEA分析
gseapy.ssgsea(data="expression.txt", gene_sets="gene_sets.gmt", outdir='test')
# 运行GSVA分析
gseapy.gsva(data="expression.txt", gene_sets="gene_sets.gmt", outdir='test')
# 重绘GSEA图表
gseapy.replot(indir='./Gsea.reports', outdir='test')
# 使用enrichr进行富集分析
gene_list = ['SCARA3', 'LOC100044683', 'CMBL', 'CLIC6', 'IL13RA1', 'TACSTD2', 'DKKL1', 'CSF1', 'SYNPO2L', 'TINAGL1', 'PTX3', 'BGN', 'HERC1', 'EFNA1', 'CIB2', 'PMP22', 'TMEM173']
gseapy.enrichr(gene_list=gene_list, gene_sets='KEGG_2016', outdir='test')
支持的基因集库
GSEApy支持丰富的基因集库,包括:
- KEGG通路数据库
- GO生物过程、分子功能和细胞组分
- Reactome通路数据库
- WikiPathways通路数据库
- 疾病相关基因集
- 药物扰动基因集
- 转录因子靶基因集
分析结果展示
GSEApy能够生成专业的分析图表,包括富集分析图、通路图等,这些图表可以直接用于科研论文发表。
性能优势
GSEApy结合了Python的易用性和Rust的高性能,确保分析过程既快速又稳定。该工具支持批处理作业,适合大规模数据分析工作流。
适用场景
- RNA-seq数据分析:揭示差异表达基因的生物学功能
- ChIP-seq数据分析:识别与特定蛋白质结合的基因集
- 微阵列数据分析:进行基因集富集分析,发现生物学意义
- 单细胞RNA-seq分析:通过ssGSEA和GSVA方法探索单细胞层面的基因集活性
GSEApy为生物医学研究人员提供了一个强大而灵活的分析平台,无论是进行基础的GO富集分析还是复杂的单细胞数据分析,都能提供专业级的解决方案。
【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考






