使用R语言批量下载指定数据批次的双端测序数据
通常,论文中的双端测序数据在ENA数据库中存储,当我们需要下载的时候,可以使用ENA推荐的工具下载,但是有些环境中却不是那么方便,因此,本文基于R语言,编写了一个根据数据批次下载双端测序数据的脚本。
# 下载双端测序数据
path="/home/pangxinzhe/Lab_4/code"
setwd(path)
# 加载数据列表
seqList <- read.delim("../data/Cirrhosis/PRJEB6337.txt", header = TRUE)
# create ftpaddress matrix for each run_accession
downInfo <- seqList[,c(colnames(seqList)[5],colnames(seqList)[12])]
# 提取样本ID
getSampleID <- function(data){
sampleId <- matrix(nrow = 0,ncol = 1)
colnames(sampleId) <- "sampleId"
for(i in 1:nrow(data)){
sampleName <- unlist(strsplit(unlist(strsplit(unlist(strsplit(as.vector(data$submitted_ftp[i]),split = ";"))[1],split = "/"))[6],split = "_"))[1]
sampleId <- rbind(sampleId,sampleN