GEO数据下载及处理详细过程

本文详细介绍了如何从GEO下载RNA-seq数据,并进行处理。通过GEO2R进行数据分析,转换SRA文件为fastq,但在数据中找不到样品信息。需要通过GEO搜索SRR编号获取GSM信息,了解样品细节。GEO DataSets的GDS、GSE、GPL和GSM编号分别代表数据集、系列、平台和样品登陆号。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

GEO2R

       如果出现提示,请指定GEO系列加入和平台。
       单击“定义组”并输入您计划比较的样品组的名称,例如测试和控制。
       将样本分配给每个组。 突出显示Sample行,然后单击组名称以将这些Samples分配给该组。 使用样本元数据(标题,源和特征)列可帮助确定哪些样本属于哪个组。
       单击“前250”以使用默认设置执行计算。
       结果表示为按显着性排序的基因表。 提出了前250个基因,可以将其视为轮廓图。 或者,可以保存完整的结果表。
        您可以更改选项选项卡中的设置。

参考文献:

  • Smyth, G. K. (2005). Limma: linear models for microarray data. In: Bioinformatics and Computational Biology Solutions using R and Bioconductor, R. Gentleman, V. Carey, S. Dudoit, R. Irizarry, W. Huber (eds.), Springer, New York, pages 397-420.
  • Sean Davis and Paul S. Meltzer (2007). GEOquery: a bridge between the Gene Expression Omnibus (GEO) and BioConductor. Bioinformatics 23(14): 1846-1847..]

 

######很多时候我们需要从GEO(https://www.ncbi.nlm.nih.gov/geo/)下载RNA-seq数据,一个典型的下载页面是https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE76381(搜 GSE76381)。

这里你会看到数据的总览:

GSM2268339    1772067089_A01
GSM2268340    1772067089_A02
GSM2268341    1772067089_A03
……
复制代码<
### GEO 数据下载与修改地址的方法 在生物信息学领域,GEO(Gene Expression Omnibus)是一个重要的公共基因表达数据存储库。为了获取并处理这些数据,可以采用多种方式完成下载和预处理工作。 #### 使用 `GEOquery` 下载 GEO 数据 通过 R 的 `GEOquery` 包可以直接从 GEO 数据库中提取所需的数据文件。然而,在实际操作过程中可能会遇到超时问题。这通常是因为网络连接不稳定或者目标文件过大所致[^1]。解决此问题的一种方法是手动调整下载参数或切换至 FTP 协议来实现更稳定的传输。 以下是基于 `GEOquery` 的基本代码框架用于下载特定 GSE 编号的数据集: ```r library(GEOquery) gse <- getGEO("GSEXXXXX", GSEMatrix = TRUE, getGPL = FALSE) exprs_data <- exprs(gse[[1]]) pData_info <- pData(gse[[1]]) fData_annotation <- fData(gse[[1]]) save(exprs_data, file="expression_matrix.Rdata") ``` 如果上述命令执行失败,则可尝试单独调用底层函数如 `getGEOSuppFiles()` 或者直接访问 NCBI 提供的 FTP 链接进行批量下载[^5]。 #### 地址路径设置与文件重命名逻辑 当面对大量原始压缩包形式存在的 RNA 序列计数矩阵或其他实验记录文档时,合理的脚本设计显得尤为重要。下面展示了一种通用策略用来自动化创建新目录结构并将旧名称映射成简洁版本的新标签[^3]: ```r # 假设当前工作区已存在指定子文件夹下的所有 .gz 文件 files <- dir(path=paste0(getwd(), "/GSE139324/GSE139324_RAW"), pattern=".gz$", full.names=TRUE) for (i in seq_along(files)){ myfile <- files[i] # 移动副本到目的位置 dest_dir <- paste0("/path/to/new/folder/", basename(dirname(myfile))) dir.create(dest_dir, showWarnings = FALSE, recursive = TRUE) file.copy(from=myfile,to=dest_dir) # 获取新的基础名部分 base_name <- unlist(strsplit(basename(myfile),"_"))[length(unlist(strsplit(basename(myfile),"_")))] new_file_path <- gsub(pattern=".gz", replacement="", x=file.path(dest_dir,base_name)) # 执行最终改名动作 file.rename(from=myfile,to=new_file_path) } ``` 以上片段实现了动态遍历源集合中的每一项条目,并逐一实施复制加转换流程直至全部更新完毕为止。 #### 利用 R 进行后续数据分析 一旦完成了初步准备工作之后,就可以利用丰富的 Bioconductor 工具链来进行深入探索了。比如绘制交互式的热图可视化样品间相似度关系;亦或是针对差异表达基因列表开展 GO 功能富集检验等等[^2]。 示例代码如下所示: ```r library(clusterProfiler) library(enrichplot) gene_list <- rownames(subset(exprs_data, condition=="treatment") - subset(exprs_data, condition=="control")) ego_result <- enrichGO(gene = gene_list, universe = rownames(exprs_data), OrgDb = org.Hs.eg.db, ont ="BP", pAdjustMethod = "BH") dotplot(ego_result) + ggtitle("Enriched Biological Processes") cnetplot(ego_result, foldChange=gene_list, circular=TRUE, colorEdge=TRUE) ``` ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值