R语言生物信息 getGEO 函数从 GEO 数据库下载的数据

原创已于 2025-09-16 23:47:21 修改 · 996 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#r语言 #数据库 #开发语言

于 2025-09-16 22:03:14 首次发布

，

要查看通过 getGEO 函数从 GEO 数据库下载的数据，你需要了解该函数返回的对象结构，并使用相应的函数来探索其内容。getGEO 函数根据你下载的数据类型（如 GSE、GDS、GSM 或 GPL）会返回不同的对象。

以下是一些常用的查看数据和元信息的方法：

查看GSE数据（最常见的情况）
当你使用 getGEO(“GSE号码”, GSEMatrix=TRUE) 下载一个GSE（系列）数据时，它通常返回一个 ExpressionSet 对象（或者一个包含多个ExpressionSet的列表，如果该GSE包含多个平台）。

library(GEOquery)
library(Biobase)

假设你已经下载了数据

gse <- getGEO(“GSE12345”, GSEMatrix = TRUE) # 请将GSE12345替换为实际的GEO accession number

如果返回的是列表，且你确定只有一个数据集，可以取第一个元素

if (is.list(gse) && length(gse) == 1) {
gse <- gse[[1]]
}

查看对象的整体信息

print(gse) # 或直接输入对象名 gse
show(gse)
查看表达矩阵（核心数据）：

获取表达量矩阵

exprs_data <- exprs(gse)

查看前几行和前几列

head(exprs_data[, 1:5])
dim(exprs_data) # 查看维度（基因/探针数量 × 样本数量）
查看样本信息（表型数据）：

获取样本信息（临床信息、分组信息等）

pheno_info <- pData(gse)
head(pheno_info)

查看所有可用的表型变量名

colnames(pheno_info)
查看基因/探针注释信息：

获取基因或探针的注释信息（比如对应的基因符号、Entrez ID等）

feature_info <- fData(gse)
head(feature_info)

查看注释信息中有哪些可用的列

colnames(feature_info)
查看实验信息：

获取实验的整体信息，如标题、摘要、PubMed ID等

exp_info <- experimentData(gse)
exp_info
查看注释包信息：

查看这个ExpressionSet使用的注释包（如果是芯片数据）

annotation(gse)
2. 查看GDS、GSM或GPL数据
对于直接下载的GDS、GSM或GPL数据（返回对象通常是特定类，如GDS、GSM、GPL），可以使用 Meta() 和 Table() 函数。

假设 gds 是一个GDS对象

gds_data <- getGEO(“GDS507”) # 举例

查看元数据（描述信息）

meta_info <- Meta(gds_data)
str(meta_info) # 查看结构
names(meta_info) # 查看元数据中的所有条目名

查看主要数据表格

data_table <- Table(gds_data)
head(data_table)
3. 处理返回列表的情况
如果一个GSE accession对应多个平台（例如GSE包含不同芯片的数据），getGEO(…, GSEMatrix=TRUE) 会返回一个列表，每个元素对应一个平台的ExpressionSet。

gse_list <- getGEO(“GSExxx”, GSEMatrix = TRUE) # 请替换为实际的GEO accession number
length(gse_list) # 查看列表中有多少个ExpressionSet
names(gse_list) # 查看列表元素的名称，通常包含平台信息

选择其中一个平台的数据进行查看

gse_platform1 <- gse_list[[1]] # 通过索引选择

或者通过平台名选择（如果列表有名字）

gse_platform1 <- gse_list[[“GPL96”]]

然后按照上面查看ExpressionSet的方法操作

重要提示
数据类型：首先明确你下载的是哪种类型的数据（GSE, GDS, GSM, GPL），因为查看方法有所不同。
ExpressionSet 对象：对于最常见的GSE系列矩阵数据，返回的 ExpressionSet 是一个标准化的Bioconductor对象，使用 exprs(), pData(), fData() 等函数访问其不同部分是最规范的方式。
元数据 (Metadata)：Meta() 函数对于查看数据集的描述性信息非常有用，例如样本来源、处理流程、联系信息等。
平台注释：如果你的表达矩阵是探针水平的，通常需要对应的GPL平台信息来将探针ID映射到基因符号或其他标识符。有时在下载GSE时通过设置 AnnotGPL=TRUE 和 getGPL=TRUE（这是默认行为），这些信息可能会包含在返回的 ExpressionSet 的 featureData 中。否则，你可能需要单独下载GPL文件。
希望这些方法能帮助你有效地查看从GEO数据库下载的数据。

getGEO 函数是 GEOquery 包的核心，用于从 GEO 数据库下载数据或解析本地数据文件。下面我将为你详细解释其源码和工作原理

。

🧬 函数定义与参数说明

首先，我们通过一个表格来快速了解 getGEO 函数的主要参数及其作用：

参数名 (Parameter) 作用描述 (Description) 默认值 (Default)

GEO 指定要下载的 GEO accession number（如 “GSE1009”）。与 filename 参数二选一。 NULL

filename 指定本地 GEO 数据文件的路径。与 GEO 参数二选一。 NULL

destdir 指定文件下载或保存的目录。 tempdir() (临时目录)

GSElimits 一个长度为 2 的整数向量（如 c(1, 10)），用于限制处理 GSE 中 GSM 样本的范围。 NULL (处理所有样本)

GSEMatrix 逻辑值。若为 TRUE，则尝试下载并解析 GSE 的系列矩阵文件（*series_matrix.txt.gz），这通常返回更易处理的 ExpressionSet 对象。若为 FALSE，则下载 SOFT 格式文件。推荐保持 TRUE。 TRUE

AnnotGPL 逻辑值。若为 TRUE，且 getGPL=TRUE，则会下载注释性的 GPL 文件（通常包含更丰富的注释信息），但文件更大，下载更慢。 FALSE

getGPL 逻辑值。是否下载 GPL（平台）信息。对于 GSE 数据，平台信息通常已包含在系列矩阵文件中，但有时需要单独下载以确保完整性。 TRUE

parseCharacteristics 逻辑值。是否尝试解析样本元数据（phenoData）中的 characteristics_ch1 等列，将其转换为更结构化的数据框。 TRUE

🔍 函数主体逻辑解析

getGEO 函数的主体逻辑可以分解为以下几个关键步骤，如下图所示，它展示了函数根据输入参数和执行条件的不同路径：
flowchart TD
A[“开始: getGEO()”] --> B{“GEO 与 filename
均未提供?”}
B – 是 --> C[“报错: 必须提供GEO或文件名”]
B – 否 --> D[“GEO参数不为空”]
D --> E[“GEO = toupper(GEO)
geotype = 取前3位字符”]
E --> F{“处理GSE且GSEMatrix=TRUE?”}
F – 是 --> G[“调用 getAndParseGSEMatrices()
返回 ExpressionSet 列表”]
F – 否 --> H[“调用 getGEOfile() 下载文件”]
H --> I[“调用 parseGEO() 解析文件”]
I --> J[“返回 GSE/GDS/GSM/GPL 对象”]

K[“filename参数不为空”] --> L[“直接调用 parseGEO() 解析指定文件”]
L --> J

subgraph Input[输入参数]
direction LR
P1[GEO]
P2[filename]
end

Input --> A

下面是各关键步骤的详细说明：

输入验证 (Input Validation)
◦ 函数首先检查是否提供了 GSElimits 参数，并且其长度是否为2。GSElimits 用于指定处理GSE中GSM样本的起止范围，格式必须类似 c(1, 10)。

◦ 接着，函数检查 GEO 和 filename 参数是否均为 NULL。如果是，则抛出错误：“You must supply either a filename of a GEO file or a GEO accession”。这意味着你必须提供 GEO accession number 或本地文件名中的一个。

核心处理逻辑 (Core Logic)
◦ 如果用户提供了 filename 参数，函数会跳过下载步骤，直接使用 parseGEO 函数解析该本地文件。

◦ 如果用户提供的是 GEO accession number：

▪   函数先将 accession number 转换为大写 (toupper(GEO))，并提取前三位字符来确定数据类型 (geotype)（是 GSE, GDS, GSM 还是 GPL）。

▪   这是一个优化路径：如果数据类型是 GSE (geotype == "GSE") 并且参数 GSEMatrix = TRUE（默认），函数会调用一个名为 getAndParseGSEMatrices 的内部函数。这个函数会下载并解析 GEO 上预先处理好的系列矩阵文件（*series_matrix.txt.gz），这些文件通常包含标准化的表达矩阵和元数据，解析后直接返回一个 ExpressionSet 对象（或列表），这是最常用和推荐的方式。

▪   如果不满足上述条件（例如处理 GDS、GSM、GPL，或 GSE 但 GSEMatrix=FALSE），函数会调用 getGEOfile 函数先将相应的 SOFT 格式文件下载到 destdir 指定的目录，然后再调用 parseGEO 函数来解析这个下载的文件。

返回结果 (Return)
◦ 函数最终返回 parseGEO 或 getAndParseGSEMatrices 的结果。返回的数据类型取决于输入的 GEO accession 类型：

▪   GSE: 通常返回一个 ExpressionSet 对象（当 GSEMatrix=TRUE）或一个包含多个 GSM 和 GPL 的复杂列表对象（当 GSEMatrix=FALSE）。

▪   GDS: 返回一个 GDS 对象，可用于后续转换为 ExpressionSet 或 limma 的 MAList 对象。

▪   GSM: 返回一个 GSM 对象，代表单个样本。

▪   GPL: 返回一个 GPL 对象，包含芯片平台的注解信息。

💡 实用信息与提示

• ExpressionSet 对象：当处理 GSE 且 GSEMatrix=TRUE 时，返回的 ExpressionSet 对象非常实用。它整合了表达矩阵（通过 exprs() 访问）、样本信息（通过 pData() 访问）和特征信息（通过 fData() 访问），是许多 Bioconductor 分析流程的标准输入。

• 下载与缓存：通过 getGEO 下载的文件会保存在 destdir 中。下次请求相同的 accession 时，如果发现本地已存在文件，则会直接读取，从而节省时间。

• 处理大规模数据：对于包含大量样本的 GSE，使用 GSElimits 参数可以分批下载和处理，避免内存不足的问题。

• 网络问题：如果从 GEO 下载总失败或速度太慢，可以先用浏览器手动下载所需的文件（如 GSExxx_series_matrix.txt.gz），然后使用 getGEO(filename=“你的文件路径”) 进行本地解析。

希望以上解释能帮助你更好地理解和使用 getGEO 函数。