GSEA文件准备
setwd("F:\\GEO\\GEO芯片数据/")
##下载好的载入
load('GSE35896_eSet.Rdata')
a=gset[[1]]
##取出第一个元素赋值给一个对象a
dat=exprs(a)
#a现在是一个对象,取a这个对象通过看说明书知道要用exprs这个函数,该函数得到表达矩阵
#现在 得到的dat就是一个表达矩阵,只不过基因的ID是探针名
dim(dat)
#看一下dat这个矩阵的维度
dat[1:5,1:5]
##以下为GPL570的包
library(hgu133plus2.db)
ids=toTable(hgu133plus2SYMBOL)
head(ids)
colnames(ids)=c('probe_id','symbol')
length(unique(ids$symbol))
#[1] 18832个独特的基因探针,意味着本来19825个里面有一部分是重复的
tail(sort(table(ids$symbol)))
table(sort(table(ids$symbol)))
#每个对象出现的个数
plot(table(sort(table(ids$symbol))))
#画图观察
ids=ids[ids$symbol != '',]
ids=ids[ids$probe_id %in% rownames(dat),]
##%in%用于判断是否匹配,然后取匹配的几行,去掉无法匹配的信息。
dat[1:5,1:5]
dat=dat[ids$probe_id,]
#取表达矩阵中可以与探针名匹配的那些,去掉无法匹配的表达数据,这时只剩下19825个探针及表达信息,其余已被剔除。
ids$median=apply(dat,1,median)
#ids新建median这一列,列名为median,同时对dat这个矩阵按行操作,取每一行的中位数,将结果给到median这一列的每一行
ids=ids[order(ids$symbol,ids$median,decreasing = T),]
#对ids$symbol按照ids$median中位数从大到小排列的顺序排序
##即先按symbol排序,相同的s