基于转录组测序获得的定量表达值,识别差异表达变化的基因或其它非编码RNA分子,实际上方法还是非常多的。但就目前来看,DESeq2和edgeR是出现频率最高的两种方法了。
DESeq2已经在上一篇文章中作了简介,本篇继续展示R包edgeR的差异基因分析流程。类似DESeq2,edgeR作为被广泛使用的R包,文献中经常能看到它的身影,如下举例。
相关文献描述
1 安装edgeR
edgeR可直接使用Bioconductor安装,还是非常简单的。
#Bioconductor 安装 edgeR
#install.packages('BiocManager') #需要首先安装 BiocManager,如果尚未安装请先执行该步
BiocManager::install('edgeR')
2 使用edgeR鉴定差异表达基因
edgeR使用经验贝叶斯估计和基于负二项模型的精确检验来确定差异基因,通过在基因之间来调节跨基因的过度离散程度,使用类似于Fisher精确检验但适应过度分散数据的精确检验用于评估每个基因的差异表达。
以下是edgeR分析差异表达基因的一般过程。
2.1 准备数据和文件读取
首先准备基因表达值矩阵。
本文的所有测试数据和R代码,可在文末获取
“control_treat.count.txt”,是6个测序样本的基因表达值矩阵,包括3个处理组(treat)和3个对照组(control),需注意将对照组在前,处理组在后。第1列是基因名称,注意不能有重复值。