3. 序列比对
(1)序列下载和分割
序列下载
登陆网站https://www.ncbi.nlm.nih.gov/Traces/study/?输入SRA序列号SRR3589956,在搜索结果页面点击Accession list下载一个TXT文件,该文件存有SRA序列号,打开文件复制其中各个SRA序列号,形成下载SRA序列的网址如下:ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR3589956/SRR3589956.sra。注意下载地址后三项的规律性。
如果下载上百个SRR文件,手动粘贴就太累了。在Linux下可以实现一行命令披露产生下载链接。软然后批量下载SRR文件。见《SRA文件下载地址批量生成》
文件分割
使用下面命令将SRR分割开来。
fastq-dump --gzip --split-3 SRR3589956.sra; done
生成之后,结果如下:
[Biochem@qcgate step3_HISAT2]$ ls *.gz -l
-rw-rw-r-- 1 Biochem Biochem 1223462176 Nov 10 22:13 SRR3589956_1.fastq.gz
-rw-rw-r-- 1 Biochem Biochem 1243288534 Nov 10 22:13 SRR3589956_2.fastq.gz
如果没有–gzip 就不会自动生成.gz的压缩文件。带这个参数就输出gz的压缩格式,好处是节省空间,而且比对软件一般都支持。
–split-3
使用下面命令将sra文件进行分割,一般分隔为两份。也就是将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里。