一行代码下载原始测序数据——生信必备下载工具iSeq

        在生物信息学分析中,从数据库(如 NCBI 或 ENA)下载原始测序数据(如 FASTQ 文件)是常见的第一步。然而,传统方式通常需要手动查询 SRA 号、安装复杂的工具、甚至编写冗长的脚本,这对入门用户和追求效率的研究者来说,都显得繁琐耗时。

        这篇文章为大家介绍一款高效、简洁的生信下载工具——iSeq。通过 iSeq,我们可以实现用“一行代码”快速下载原始测序数据,极大地提升工作效率!本文将重点介绍 iSeq 的功能特点及使用方法,帮助你轻松上手。


一、简介

        iSeq是一个Bash脚本工具,可以方便快捷从GSA、SRA、ENA和DDBJ数据库下载测序数据和元数据。

项目GitHub地址:https://github.com/BioOmics/iSeq

项目引用: Haoyu Chao, Zhuojin Li, Dijun Chen, Ming Chen, iSeq: An integrated tool to fetch public sequencing data, Bioinformatics, 2024;, btae641, iSeq: an integrated tool to fetch public sequencing data | Bioinformatics | Oxford Academic

二、使用方法

1. 安装iSeq

首先系统上需要安装有conda环境(下载Conda:Download Now | Anaconda),在安装iSeq之前可以先创建一个专门用来下载的虚拟环境:

# 创建conda虚拟环境
conda create -n iseq

虚拟环境创建好之后启动该环境:

# 启动虚拟环境
conda activate iseq

在虚拟环境中安装iSeq:

# 安装iSeq
conda install bioconda::iseq

安装完成后查看iSeq版本:

iseq --version

2. 使用iSeq下载测序数据

iSeq支持下载以下系列的数据,基本上覆盖了绝大多数的数据库:

DatabasesBioProjectStudyBioSampleSampleExperimentRun
GSAPRJCCRASAMC\CRXCRR
SRAPRJNASRPSAMNSRSSRXSRR
ENAPRJEBERPSAMEERSERXERR
DDBJPRJDBDRPSAMDDRSDRXDRR
GEOGSE\GSM\\

下面是这些数据库的一些示例:

Accession TypePrefixesExample
BioProjectPRJEB, PRJNA, PRJDB, PRJC, GSEPRJEB42779, PRJNA480016, PRJDB14838, PRJCA000613, GSE122139
StudyERP, DRP, SRP, CRAERP126685, DRP009283, SRP158268, CRA000553
BioSampleSAMD, SAME, SAMN, SAMCSAMD00258402, SAMEA7997453, SAMN06479985, SAMC017083
SampleERS, DRS, SRS, GSMERS5684710, DRS259711, SRS2024210, GSM7417667
ExperimentERX, DRX, SRX, CRXERX5050800, DRX406443, SRX4563689, CRX020217
RunERR, DRR, SRR, CRRERR5260405, DRR421224, SRR7706354, CRR311377

 下载相应数据只需要一行代码:

# 下载数据
iseq -i accession

# accession替换成你想要下载的数据集的编号,例如:
# iseq -i PRJNA211801
# iseq -i CRR343031

 程序会自动开始下载(需要支持FTP、HTTP 和 HTTPS 协议):

 

3. iSeq 一些其他参数

-m, --metadata

只下载accession的样本信息,跳过测序数据的下载。

iseq -i PRJNA211801 -m
iseq -i CRR343031 -m

-g, --gzip

直接下载gzip格式的FASTQ文件,如果不能直接下载,则会下载SRA文件并通过多线程分解和压缩转换为gzip格式。

iseq -i SRR1178105 -g

-q, --fastq

将下载完成的SRA文件分解为多个未压缩的FASTQ格式。

iseq -i SRR1178105 -q

-t, --threads

指定分解SRA文件为FASTQ文件或者压缩FASTQ文件的线程数,默认为8。

iseq -i SRR1178105 -q -t 10

-e, --merge

将Experiment中的多个FASTQ文件合并为一个FASTQ文件

iseq -i SRX003906 -g -e ex

-d, --database

指定下载SRA文件的数据库,支持enasra两种数据库。

iseq -i SRR1178105 -d sra 

-p, --parallel

开启多线程下载,需要指定下载的线程数。

iseq -i PRJNA211801 -p 10

-a, --aspera

使用Aspera进行下载。

iseq -i PRJNA211801 -a -g

-o, --output

v1.1.0之后可以选择输出文件的位置,如果不存在相应的文件夹,则创建

iseq -i SRR931847 -o PRJNA211801

-s, --speed

v1.2.0之后可以选择限速下载,单位是MB/s

iseq -i SRR931847 -s 10

其他详细参数的解释可以到项目地址进行阅读:iSeq/docs/ChineseTutorial.md at main · BioOmics/iSeq · GitHub

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Noobfurid

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值