利用DESeq2包及clusterProfiler包进行差异表达分析及GO分析

原创

于 2021-08-27 14:01:38 发布 · 2.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

本文介绍了如何使用DESeq2包进行基因表达差异分析，详细步骤包括数据预处理、模型构建、结果筛选，并利用clusterProfiler进行基因富集研究。最终输出了显著差异表达基因并探讨其可能的功能注释。

DESeq2包进行差异分析

a<-read.table(file ="GEO13067.txt",
              sep="\t",
              header = T)
##读入表达矩阵
a<-a[,-1]
rownames(a)<-a[,1]
a<-as.data.frame(a)
a<-t(a)
a[1:3,1:3]
##整理成数据框，行名为样本名，列名为基因名
order(a$TP53)
a<-a[order(a$TP53),]
head(a$TP53)
##将TP53基因的表达量按照从低到高对样本排序
a<-t(a)
dim(a)
a<-a+1
###得到a为按照TP53表达量排序的表达矩阵
####下面进行差异分析
##BiocManager::install("DESeq2")
library(DESeq2)
##加载包
a<-(2^a)-1
a<-floor(a)
##表达矩阵数据需要count值，这里变回原始count值并且取整数
condition <- factor(c(rep("low",37),
                      rep("high",37)),
                    levels = c("low","high"))
condition
##构建分组，前37组为低表达组，后37组为高表达组
colData <- data.frame(row.names=colnames(a), condition)
colData
##得到样本名对应的分组信息
dds <- DESeqDataSetFromMatrix(a, colData, 
                              design= ~ condition )
head(dds)  #查看一下构建好的矩阵
dds <- DESeq(dds)
dds
res = results(dds, contrast=c("condition", "low", "high"))
res = res[order(res$pvalue),]
head

最低0.47元/天解锁文章