最近工作关系,需要重现一个文章的基因芯片数据分析,查找差异基因,花了一天时间跑了limma流程,供大家参考。
论文名字为 Identification of inflammatory mediators in patients with Crohn’s disease unresponsive to anti-TNFα therapy, 是三组之间的差异基因比较。想复现这个图:
我图省事,直接GEO数据库中下载了基因表达量的矩阵文件GSE52746_series_matrix.txt.gz, 直接从matrix 开始分析,用的是rstudio,R4.03
#删除环境中所有变量
rm(list=ls())
Sys.setenv(LANGUAGE = "en") #显示英文报错信息
options(stringsAsFactors = FALSE) #禁止chr转成factor
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
dir.create("GSE52746_DEG1")
setwd("/Users/.../Documents/code_and_graph/gut_microbiome_diff_R") # 转换工作目录
list.files()
#安装Biobase and limma,如果已安装,忽略此步,直接导入
if (!requireNamespace("BiocManager", quietly = TRUE))
+ install.packages("BiocManager") # 安装limma
BiocManager::install("Biobase") # 安装biobase
#导入包
library(Biobase)
library(limma)
#安装GEOquery包,读取matrix
BiocManager::install("GEOquery") # 如果已安装