GSEA分析结果详细解读

欢迎关注微信公众号《生信修炼手册》!

在解读传统的富集分析结果时,经常会有这样的疑问,一个富集到的通路下,既有上调差异基因,也有下调差异基因,那么这条通路总体的表现形式究竟是怎样呢,是被抑制还是激活?或者更直观点说,这条通路下的基因表达水平在实验处理后是上升了呢,还是下降了呢?

在这里我说下自己的观点,在传统的富集分析时,我们只需要一个差异基因的列表,根本不关心这个差异基因究竟是上调还是下调。这是因为,传统的富集分析根本不需要考虑基因表达量的变化趋势,其算法的核心只关注这些差异基因的分布是否和随机抽样得到的分布一致,即使后期在可视化时,我们在通路图上用不同颜色标记了上下调的基因,但是由于没有采用有效的统计学手段去分析这条通路下所有差异基因的总体变化趋势,这使得传统的富集分析结果无法回答上述的问题。

当然也有人灵光一闪,想出一个解决方案,在进行传统的富集分析时,每次只提取上调或者下调的差异基因来进行分析,由于事先根据表达量变化趋势对差异基因进行了筛选,从而回避了上面的问题。在我个人看来,这样的做法有失偏颇,因为费舍尔精确检验就是想要证明我这个差异基因列表不是随机抽样得到的,而我们事先对差异基因列表的过滤已经对结果的随机性造成了干扰,最后得出的结论其准确性也大大降低。

想象一下,上调基因和下调基因分开富集,然后富集到了同一条通路,这怎么解释?所以在我看来,传统的富集分析只能定位到功能,这些差异基因与哪些功能相关,而不能回答一开始的这个问题。想要回答一开始的这个问题,我们需要GSEA富集方法的结果。

在这里插入图片描述
还是这张原理图,GSEA的输入是一个基因表达量矩阵,其中的样本分成了A和B两组,首先对所有基因进行排序,在之前的文章中也有提到排序的标准,这里简单理解就是foldchange, 用来表示基因在两组间表达量的变化趋势。排序之后的基因列表其顶部可以看做是上调的差异基因,其底部是下调的差异基因。

GSEA分析的是一个基因集下的所有基因是否在这个排序列表的顶部或者底部富集,如果在顶部富集,我们可以说,从总体上看,该基因集是上调趋势,反之,如果在底部富集,则是下调趋势。

理解这个观点之后,在来看GSEA富集分析的结果。由于结果很多,所以给出了一个汇总的html页面。

对于富集结果,根据上调还是下调分成了两个部分,对应两个分组,示例如下

在这里插入图片描述
在每个组别下富集到的基因集,从总体上看,其表达量在该组中高表达。点击enrichment results in html,可以在网页查看富集的结果,示例如下
在这里插入图片描述
GS为基因集的名字,SIZE代表该基因集下的基因总数,ES代表Enrichment score, NES代表归一化后的Enrichment score, NOM p-val代表pvalue,表征富集结果的可信度,FDR q-val代表qvalue, 是多重假设检验矫正后的p值,注意GSEA采用pvalue < 5%, qvalue < 25% 对结果进行过滤。

点击GS DESC可以跳转到每个基因集详细结果页面,示例如下
在这里插入图片描述
首先是一个汇总的结果,Upregulated in class说明该基因集在MUT这组中高表达,其他信息和之前介绍的一样,除此之外,还有一个详细的表格,示例如下
在这里插入图片描述
对于该基因集下的每个基因给出了详细的统计信息,RANK IN GENE LIST代表该基因在排序号的列表中的位置, RANK METRIC SCORE代表该基因排序量的值,比如foldchange值,RUNNIG ES代表累计的Enrichment score, CORE ENRICHMENT代表是否属于核心基因,即对该基因集的Enerchment score做出了主要贡献的基因。

这个表格中的数据对应下面这张图
在这里插入图片描述
分成3个部分,第一部分为基因Enrichment Score的折线图,横轴为该基因下的每个基因,纵轴为对应的Running ES, 在折线图中有个峰值,该峰值就是这个基因集的Enrichemnt score,峰值之前的基因就是该基因集下的核心基因。

第二部分为hit,用线条标记位于该基因集下的基因,第三部分为所有基因的rank值分布图, 默认采用Signal2Noise算法,对应了纵轴的标题。

从该图中可以看出,这个基因集是在MUT这一组高表达的,下面是一个在另一组组中高表达的示例
在这里插入图片描述

可以看到,其Enrichment score值全部为负数,对应的在其峰值右侧的基因为该基因集下的核心基因。

除此之外,还有一种热图,示例如下
在这里插入图片描述
这张热图展示的是位于该基因集下的基因在所有样本中表达量的分布,其中每一列代表一个样本。每一行代表一个基因,基因表达量从低到高,颜色从蓝色过渡到红色。

在总的html页面中,还给出了如下信息

在这里插入图片描述
Dataset details给出了基因总数,Gene Set details给出了基因集的信息,注意软件默认根据基因集包含的基因个数是先对基因集进行过滤,最小15个,最大500个基因,过滤掉了158个基因集,剩余的168个基因集用于分析。

Gene markers给出了排序之后的基因列表和对应的统计量rank ordered gene list,根据排序的统计量,将基因分成了两部分,对应在每一组中高表达。heatmap and gene list包含了所有基因表达量的热图和排序值的分布图,示意如下

在这里插入图片描述
在这里插入图片描述
热图由于基因太多,截取了部分,排序值的分布图其实就是每个基因集的Enrichment plot中的第三部分。更多的细节请查阅官方文档。

扫描关注微信号,更多精彩内容等着你!
在这里插入图片描述

07-30
<think>我们面对的是一个关于基因富集分析GSEA)的问题。用户意不明确,但问题明确指向GSEA。由于GSEA是生物信息学中的常用方法,属于生物与计算交叉领域,因此可以视为IT相关查询(生物信息学属于生命科学与信息技术的交叉领域)。 任务:我们需要通过搜索获取GSEA的基本概念、原理、步骤、常用工具以及应用场景等信息,并整合成清晰、实用的回答。 注意:回答需符合格式要求,包括不使用第一人称、步骤词汇,将内容组织为多个方法或步骤(每个步骤间换行),公式和代码的格式规范,以及最后添加相关问题部分。 搜索策略: 1. 搜索GSEA的定义、原理和核心思想。 2. 搜索GSEA的步骤(分析流程)。 3. 搜索常用的GSEA工具(特别是常用的软件或在线平台)。 4. 搜索GSEA的应用场景和注意事项。 由于需要网络搜索,我们将模拟搜索过程,并整合信息。 根据已知知识(但需通过搜索验证和补充): GSEA是一种用于分析基因表达数据的方法,用于确定预先定义的基因(如通路或功能类别)在两种生物学状态(如疾病与正常)之间是否显示出统计上显著的、一致性的差异。 核心步骤通常包括: 1. 计算每个基因的排序指标(如根据表达差异的log2FC或信号强度)。 2. 对基因排序。 3. 计算富分数(ES),即观察基因在排序列表中的分布是否偏离随机分布。 4. 评估ES的统计显著性(通过置换检验等)。 常用工具:GSEA软件(由Broad Institute开发)是最常用的,还有R语言中的clusterProfiler等包。 我们将按照要求组织回答: 1. 避免使用步骤词汇,但可以用分点的方式(用换行分隔)来介绍不同的方面,如:概念、原理、步骤、工具等。 2. 注意公式和代码的格式要求。 由于要求不能将引用内容中在末尾,所以我们在行文中不标注引用,但会整合多个来源的信息。 最后,生成相关问题部分,至少3个问题。 开始整合回答:</think>### 基因富集分析GSEA)详解 基因富集分析(Gene Set Enrichment Analysis, GSEA)是一种用于识别基因表达数据中生物学通路或功能类别显著富的计算方法。与单基因分析不同,GSEA关注预定义基因(如KEGG通路、GO术语)的整体表达模式,适用于发现细微但一致的基因变化。 #### **核心原理** 1. **排序基因列表** 基于基因在两组样本(如疾病 vs 健康)中的表达差异进行排序。常用排序指标为信号噪声比(Signal2Noise): $$S2N(g) = \frac{\mu_{A}(g) - \mu_{B}(g)}{\sigma_{A}(g) + \sigma_{B}(g)}$$ 其中 $\mu$ 为组内均值,$\sigma$ 为标准差。 2. **计算富分数(ES)** 沿排序列表计算累计富分数: - 当基因属于目标基因时增加得分,否则减少得分; - ES 为累计得分的最大偏差值,反映基因在排序列表顶部/底部的富程度。 3. **显著性评估** 通过样本或基因标签置换生成零分布,计算标准化富分数(NES)和错误发现率(FDR): $$NES = \frac{ES}{\text{置换检验的ES均值}}$$ FDR < 0.25 通常视为显著。 #### **分析流程** **输入数据准备** - 基因表达矩阵(行为基因,列为样本); - 样本分组标签(如对照组/实验组); - 预定义基因(可从MSigDB下载)。 **工具与代码示例** 常用工具包括 GSEA官方软件(Java)或 R 包 `clusterProfiler`。以下为 R 示例: ```r # 安装并加载包 install.packages("clusterProfiler") library(clusterProfiler) # 加载表达矩阵和分组 expr_matrix <- read.csv("expression_data.csv", row.names=1) group_labels <- c(rep("Control", 10), rep("Treatment", 10)) # 执行GSEA分析 gsea_result <- gseGO( geneList = sort(rowMeans(expr_matrix), decreasing=TRUE), ont = "BP", # 生物学过程 OrgDb = org.Hs.eg.db, pvalueCutoff = 0.05 ) # 可视化 dotplot(gsea_result, showCategory=10) ``` #### **关键注意事项** - **基因选择**:推荐使用MSigDB中的标准合(如Hallmark基因); - **样本量**:每组至少需3个样本以保证统计效力; - **多重检验校正**:优先使用FDR而非p值避免假阳性。 #### **应用场景** - 发现疾病相关通路(如癌症中的代谢重编程); - 药物靶点机制研究; - 跨组学数据整合(如转录组+表观基因组)。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值