GSEA文件准备及表达相关性分析（R语言）

最新推荐文章于 2025-10-22 15:44:13 发布

原创

最新推荐文章于 2025-10-22 15:44:13 发布 · 8.1k 阅读

35 ·

CC 4.0 BY-SA版权

本文详细介绍如何使用R语言处理GEO芯片数据，包括数据加载、探针ID转换、基因表达矩阵的创建与筛选，以及GSEA文件的生成。同时，进行临床表型分组与相关性分析，为GSEA分析做好充分准备。

GSEA文件准备

setwd("F:\\GEO\\GEO芯片数据/")

##下载好的载入
load('GSE35896_eSet.Rdata') 
a=gset[[1]] 
##取出第一个元素赋值给一个对象a
dat=exprs(a) 
#a现在是一个对象，取a这个对象通过看说明书知道要用exprs这个函数，该函数得到表达矩阵
#现在 得到的dat就是一个表达矩阵，只不过基因的ID是探针名
dim(dat)
#看一下dat这个矩阵的维度
dat[1:5,1:5] 

##以下为GPL570的包
library(hgu133plus2.db)
ids=toTable(hgu133plus2SYMBOL) 
head(ids) 

colnames(ids)=c('probe_id','symbol')  
length(unique(ids$symbol)) 
#[1] 18832个独特的基因探针，意味着本来19825个里面有一部分是重复的
tail(sort(table(ids$symbol)))
table(sort(table(ids$symbol)))
#每个对象出现的个数
plot(table(sort(table(ids$symbol))))
#画图观察

ids=ids[ids$symbol != '',]
ids=ids[ids$probe_id %in%  rownames(dat),]
##%in%用于判断是否匹配，然后取匹配的几行，去掉无法匹配的信息。

dat[1:5,1:5]   
dat=dat[ids$probe_id,] 
#取表达矩阵中可以与探针名匹配的那些，去掉无法匹配的表达数据，这时只剩下19825个探针及表达信息，其余已被剔除。

ids$median=apply(dat,1,median) 
#ids新建median这一列，列名为median，同时对dat这个矩阵按行操作，取每一行的中位数，将结果给到median这一列的每一行
ids=ids[order(ids$symbol,ids$median,decreasing = T),]
#对ids$symbol按照ids$median中位数从大到小排列的顺序排序
##即先按symbol排序，相同的s