博主最近在做机器学习相关,需要用到大量的数据,这就需要在GEO上频繁下载数据库(被折磨得神志不清),所以就简单做了一个快速整理geo数据库的R脚本,分享给大家。
核心思路很简单,就是利用GEOquery包中的在线下载注释的功能,随后将所有的变量名称通过文件夹名称和txt名称来进行替换,进而解放双手。
1、前置准备
新建一个文件夹放入准备内容,文件夹的名称为该芯片的名称,准备的内容为:R脚本、GPL.txt,里面包含的是所有拥有在线注释的GPL平台名称、在GEO中下载的压缩包、以及新建一个空白文件夹,文件夹的名称为该芯片的GPL平台。

2、代码部分
2.1、包的载入
# GEO数据整理
library(GEOquery)
library(dplyr)
library(ggplot2) ##3.5.0
library(ggpubr) ##0.6.0
library(reshape2) ##1.4.4
library(here)
library(fs)
current_path <- getwd()
setwd(current_path)
current_folder <- basename(getwd())
dataname <- current_folder
subdirs <- dir_ls(type = "directory")
platfrom <- path_file(subdirs)
这里的getwd

最低0.47元/天 解锁文章
1988

被折叠的 条评论
为什么被折叠?



