limma分析的大致流程
- 导入read count, 保存为专门的对象用于后续分析
- 原始数据过滤,根据标准化read count 或者 raw count 作为筛选标准
- raw read count 标准化
- 通过各种算法(如经验贝叶斯,EM)预测dispersion离散值
- 广义线性模型拟合数据
- 差异分析,也就是统计检验部分
rm(list=ls())
library(limma)
genesymbol<-read.delim("/Users/Desktop/ESCC_RNA_count_data/ESCC_count_cancer_expression.txt",header = TRUE,check.names = F)
condition<-read.delim("/Users/Desktop/ESCC_RNA_count_data/clinical merge.txt",header=TRUE)
genesymbol<-avereps(genesymbol[,-1],ID=genesymbol$id)
condition<-condition[,c("submitter_id","alcohol_history")]
for(i in 1:ncol(genesymbol)){
colnames(genesymbol)[i]<-substr(colnames(genesymbol)[i],1,12)
}
condition<-condition[!condition$alcohol_history=="not_reported",]
genesymbol_alcohol<-genesymbol[,colnames(genesymbol)%in%condition$submitter_id]
#将0,1转换成not,yes,将0,1转化为not与yes是为了构建差异比较矩阵
condition$alcohol_history_text=as.factor(ifelse(condition$alc