揭秘差异基因功能富集分析

本文探讨了差异基因功能富集分析的重要性,包括基因的注释信息和统计方法。通过对基因参与的生物学过程(如GO, KEGG, wikipathway, reactome等数据库)的了解,结合统计学手段(如费舍尔精确检验和GSEA),揭示实验处理影响的生物学过程。富集分析的关键在于选择合适的数据库和统计方法,以挖掘差异基因背后的生物学意义。" 106871453,9323098,计算机网络知识总结:网络层详解,"['计算机网络', 'IP', '路由', '协议', '组播', '地址转换']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

欢迎关注微信公众号《生信修炼手册》!

通过差异分析,我们可以知道不同分组间是否存在差异,存在差异的是哪些基因。再进一步,需要探究这些基因的表达量出现差异是由哪些生物学过程介导的,我们的实验处理影响了哪些生物学过程。

为了探究上述问题,我们首先需要知道基因参与的生物学过程,这个依赖于我们对生命活动的已有认知,比如常见的KEGG数据库,就存储了基因对应的通路信息。其次,我们还需要一点统计学手段,差异基因的数目是成百上千的,每个基因又参与多个生物学过程,直接将所有差异基因的功能汇总,会得到非常多的信息,由于数量庞大,所以看起来是杂乱无章的,没有任何规律可言,所以需要借助统计学手段,去挖掘差异基因集中在哪些生物学过程,也就是我们常说的富集分析。

从上面的解释可以看到,富集分析有两个核心

1. 基因的注释信息

基因参与的生物学过程,也称之为基因的功能注释,这部分信息主要依赖已有的数据库,常见的数据库包括GO, KEGG, wikipathway, reactome等。

需要注意的是,不同数据库覆盖的基因数目是不一样的,以human为例,一共2万多个蛋白编码基因 , 其中有KEGG pathway注释的只有6000多个。由于已有认知的缺陷,这个是无法避免的问题,只能通过不断的探索研究来更新和完善数据库中的内容。

所以在富集分析时,会集合多个数据库来分析,最常见的就是GO和KEGG数据库,近年来reactome用的也越来越多。其实,只要是你感兴趣的功能数据库,都可以拿来做分析。

2. 统计方法

如何研究差异基因集中参与的生物学过程,需要借助统计学手段,常见的方法包括以下两种:

  1. 费舍尔精确检验
  2. GSEA

费舍尔精确检验的核心就是得到如下所以的2X2的表格,

DGE Genome
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值