傻瓜式下载SRA中的fastq双末端源数据

在阅读文献过程中,看到很多存储在SRA的数据想要下载,SRA Tools和Aspera用的比较多,但使用上以及下载速度上各有各的看法吧,下面提供一种傻瓜式下载方法,linux系统和windows系统都行,当然linux系统下更稳定一些。
阅读文献中读到了,数据存储在NCBI的PRJNA229517。
在这里插入图片描述
首先,我们去 https://www.ebi.ac.uk/ 搜索PRJNA229517。(为什么不去搜NCBI?我理解就是美国有的,欧洲做了个备份,并且欧洲这边提供了ftp的下载方式,而NCBI上没有找到。)
在这里插入图片描述
这里可以看到该项目下的所有fastq文件和SRA文件,点击即可下载,无需安装什么软件,下载速度的话就因人而异。

如果想下载该项目下的所有fastq.gz文件,只需点击TSV处,将表格下载下来,里面带有所有目标文件的下载地址。
在这里插入图片描述
然后用wget -c命令下载即可,如:
wget -c ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/004/SRR1534154/SRR1534154_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR153/004/SRR1534154/SRR1534154_2.fastq.gz
这样SRR1534154的双末端测序文件就都下载下来了。
在这个TSV文件基础上修改下,很快可以做成个sh文件,运行即可。
如果你特别喜欢用aspera,里面也提供了aspera的ftp下载地址。
wget -c下载一般还是比较快的,并且-c支持了断点续传。

为了深入理解转录组质控的基础知识,并掌握如何从SRA数据库中获取数据并进行质控,建议你参阅《转录组质控与细胞器基因筛选:SRA Toolkit与fastq-dump实践》一书。这本书将为你提供从理论到实践的详细指导,帮助你快速掌握SRA Toolkit和fastq-dump工具的使用技巧。 参考资源链接:[转录组质控与细胞器基因筛选:SRA Toolkit与fastq-dump实践](https://wenku.youkuaiyun.com/doc/50b1er6v54?spm=1055.2569.3001.10343) 使用SRA Toolkit的fastq-dump命令下载SRA数据的过程相对简单。首先,你需要确保安装了SRA Toolkit和ncbi-entrez-toolkit库。然后,你可以在命令行中输入如下命令: ``` fastq-dump --split-3 SRRXXXXX.sra ``` 其中`SRRXXXXX`是你感兴趣的SRA文件的ID。参数`--split-3`用于将单个读取的端测序数据分成两个独立的文件,这对于后续的数据处理非常有用。 在FASTQ格式中,每条记录由四行组成:序列标识符以'@'开头,紧接着是序列,然后是与每个碱基相对应的质量分数行,以及一个以'+'开始后跟序列标识符的行。质量分数使用Phred+33或Phred+64的格式编码,具体取决于所使用的测序仪和数据版本。例如,Phred+33格式的质量分数值加上33后,就可以转换为ASCII字符,反映碱基的质量。质量分数越高,表示碱基识别的准确性越高。 在处理转录组数据时,理解FASTQ文件中的质量分数对于筛选出高质量的读取非常重要。低质量的碱基可能会影响后续的比对和分析,因此在质控过程中,通常会设定一个质量阈值,丢弃那些低于该阈值的读取。 为了更好地掌握这些知识,阅读《转录组质控与细胞器基因筛选:SRA Toolkit与fastq-dump实践》一书,将为你提供详细的操作示例和对转录组质控流程的深入理解。当你对FASTQ格式和质量分数有了清晰的认识后,你将能够更有效地处理和分析转录组测序数据。 参考资源链接:[转录组质控与细胞器基因筛选:SRA Toolkit与fastq-dump实践](https://wenku.youkuaiyun.com/doc/50b1er6v54?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值