GSEApy基因富集分析工具完全指南

GSEApy基因富集分析工具完全指南

【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 【免费下载链接】GSEApy 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy

GSEApy是一款强大的Python/Rust实现的基因集富集分析工具,专门用于RNA-seq、ChIP-seq和微阵列数据的分析。该工具能够方便地进行GO富集分析,并生成高质量的出版级图表,是生物信息学研究和生物医学数据分析的重要工具。

核心功能模块

GSEApy提供七个主要的分析模块,每个模块针对不同的分析需求:

  • gsea模块:执行标准基因集富集分析,需要表达矩阵txt文件、cls文件和gmt格式的基因集文件。

  • prerank模块:进行预排序基因分析,需要.rnk格式的预排序基因列表和gmt格式的基因集文件。

  • ssgsea模块:执行单样本GSEA分析,支持DataFrame和GCT文件格式。

  • gsva模块:进行基因集变异分析,输入格式与ssgsea相同。

  • replot模块:重绘GSEA桌面版结果图表,只需要提供GSEA桌面版输出结果的位置。

  • enrichr模块:通过Enrichr API进行基因集富集分析,运行速度极快。

  • biomart模块:通过BioMart API帮助转换基因ID。

安装方法

GSEApy支持多种安装方式:

# 通过conda安装(适用于MacOS和Linux)
conda install -c bioconda gseapy

# 通过pip安装(适用于Windows和MacOS ARM64)
pip install gseapy

数据准备指南

表达数据文件

表达数据文件应为表格文本格式,包含基因表达值。支持FPKM、期望计数、TPM等多种表达量单位。文件结构包含基因符号列和样本表达值列。

基因表达数据结构示例

样本分组文件(cls文件)

cls文件用于指定样本的分组信息,包含三行内容:

  • 第一行:总样本数和表型数量
  • 第二行:表型类别名称
  • 第三行:样本分组属性

基因集文件(gmt格式)

gmt文件包含基因集数据库信息,可以从GSEA或Enrichr网站下载,也可以使用Enrichr库名称。

使用示例

命令行使用

# 运行GSEA分析
gseapy gsea -d exptable.txt -c test.cls -g gene_sets.gmt -o test

# 运行Prerank分析
gseapy prerank -r gsea_data.rnk -g gene_sets.gmt -o test

# 运行ssGSEA分析
gseapy ssgsea -d expression.txt -g gene_sets.gmt -o test

# 运行GSVA分析
gseapy gsva -d expression.txt -g gene_sets.gmt -o test

# 使用replot重绘图表
gseapy replot -i ./Gsea.reports -o test

# 使用enrichr API
gseapy enrichr -i gene_list.txt -g KEGG_2016 -o test

Python交互式使用

import gseapy

# 运行GSEA分析
gseapy.gsea(data='expression.txt', gene_sets='gene_sets.gmt', cls='test.cls', outdir='test')

# 运行Prerank分析
gseapy.prerank(rnk='gsea_data.rnk', gene_sets='gene_sets.gmt', outdir='test')

# 运行ssGSEA分析
gseapy.ssgsea(data="expression.txt", gene_sets="gene_sets.gmt", outdir='test')

# 运行GSVA分析
gseapy.gsva(data="expression.txt", gene_sets="gene_sets.gmt", outdir='test')

# 重绘GSEA图表
gseapy.replot(indir='./Gsea.reports', outdir='test')

# 使用enrichr进行富集分析
gene_list = ['SCARA3', 'LOC100044683', 'CMBL', 'CLIC6', 'IL13RA1', 'TACSTD2', 'DKKL1', 'CSF1', 'SYNPO2L', 'TINAGL1', 'PTX3', 'BGN', 'HERC1', 'EFNA1', 'CIB2', 'PMP22', 'TMEM173']
gseapy.enrichr(gene_list=gene_list, gene_sets='KEGG_2016', outdir='test')

支持的基因集库

GSEApy支持丰富的基因集库,包括:

  • KEGG通路数据库
  • GO生物过程、分子功能和细胞组分
  • Reactome通路数据库
  • WikiPathways通路数据库
  • 疾病相关基因集
  • 药物扰动基因集
  • 转录因子靶基因集

Enrichr功能界面

分析结果展示

GSEApy能够生成专业的分析图表,包括富集分析图、通路图等,这些图表可以直接用于科研论文发表。

GSEA分析结果示例

性能优势

GSEApy结合了Python的易用性和Rust的高性能,确保分析过程既快速又稳定。该工具支持批处理作业,适合大规模数据分析工作流。

适用场景

  • RNA-seq数据分析:揭示差异表达基因的生物学功能
  • ChIP-seq数据分析:识别与特定蛋白质结合的基因集
  • 微阵列数据分析:进行基因集富集分析,发现生物学意义
  • 单细胞RNA-seq分析:通过ssGSEA和GSVA方法探索单细胞层面的基因集活性

单样本GSEA分析

GSEApy为生物医学研究人员提供了一个强大而灵活的分析平台,无论是进行基础的GO富集分析还是复杂的单细胞数据分析,都能提供专业级的解决方案。

【免费下载链接】GSEApy Gene Set Enrichment Analysis in Python 【免费下载链接】GSEApy 项目地址: https://gitcode.com/gh_mirrors/gs/GSEApy

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值