安装和使用SRA toolkit

本文介绍如何安装SRAtoolkit并配置环境变量。详细步骤包括下载、解压及安装SRAtoolkit,使用prefetch下载SRA文件,利用fastq-dump将SRA文件转换为FASTQ格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

进入软件安装目录
cd ~/local/app/
下载 SRA toolkit (确保你的下载链接对应的软件版本是跟你的系统一致的)
curl -O https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-centos_linux64.tar.gz
解压
tar xzvf sratoolkit.2.8.2-centos_linux64.tar.gz
转到这个目录下,并查看里面的文件
cd sratoolkit.2.8.2-centos_linux64
ll
程序都在这个bin目录下
cd bin
ll
配置环境变量
echo "export PATH=\$PATH:\$HOME/local/app/sratoolkit.2.8.2-centos_linux64/bin" >> ~/.bashrc
source ~/.bashrc

转到 lecture 文件夹下
mkdir -p ~/edu/lec4
cd ~/edu/lec4
命令prefetch 可以从远程站点下载文件
prefetch -h

Usage:
  prefetch [options] <SRA accession | kart file> [...]
  Download SRA or dbGaP files and their dependencies
  prefetch [options] <SRA file> [...]
  Check SRA file for missed dependencies and download them
  prefetch --list <kart file> [...]
  List the content of a kart file
...............................................................
来获取文件
prefetch SRR1553610
这些文件去哪里了?存在了你home目录下的一个默认文件夹里
ls ~/ncbi
里面添加了什么?可以用工具find来查看
find ~/ncbi
/home/sunchengquan/ncbi
/home/sunchengquan/ncbi/public
/home/sunchengquan/ncbi/public/sra
/home/sunchengquan/ncbi/public/sra/SRR1553610.sra
我们用程序fastq-dump来把文件拆包
fastq-dump -h
从NCBI下下来的数据,双端测序数据是放在一个文件里的,所以需要把它们重新拆解为两个文件
拆包文件
cd ncbi/public/sra/
fastq-dump --split-files SRR1553610
FASTQ格式的原始数据文件已经在当前文件夹了
shell下的模式匹配。* (星号)表示可以匹配任何东西
wc -l *.fastq

   879348 SRR1553610_1.fastq
   879348 SRR1553610_2.fastq
  1758696 总用量
查看文件
head SRR1553610_1.fastq
cat *.fastq | grep @SRR | wc -l
如何下载多个文件
echo SRR1553607 > sra.ids
echo SRR1553605 >> sra.ids

prefetch --option-file sra.ids
拆包下载好的所有文件
fastq-dump --split-files ~/ncbi/public/sra/SRR155360*

or
cat sra.ids | sed 's/SRR/fastq-dump --split-files SRR/'
我们还要做的更好。 为什么要去一一复制这些SRR ID ?我们其实可以完全通过命令行来获取它们
esearch -db sra -query PRJNA257197  | efetch -format runinfo
这个命令是把所有的结果放到一个文件里
esearch -db sra -query PRJNA257197  | efetch -format runinfo > runinfo.txt
cat runinfo.txt|wc -l
927
cat runinfo.txt|grep SRR|wc -l
891
并且,由于这是一个逗号分隔符的文件,我们需要把分隔符(用以区别不同列的符号)指明给cut程序
cat runinfo.txt | cut -f 1 -d ","
在我给出的网页版的截图里,你也可以看到,最终结果确实是891个,跟命令行获取的是一样的

这里写图片描述

检查一下下载结果的总大小
du -hs ~/ncbi

例如查询当前用户目录下的所占用的空间
du -hs * 
4.0K    blast.sh
2.8G    Cosmic_grep
2.5G    data
16M    edu
5.6M    features.gff
11M    GAS_match
67M    illumina-data.fq
23M    illumina-data.fq.gz
95M    input
4.8M    lec7.tar.gz
1.4G    local
4.0K    match.gff
42M    mydata.tar.gz
790M    ncbi
................................................
对于du命令,-h表示 查看以M 为单位显示文件大小结果,-s 统计此目录中所有文件大小总和
在NCBI 网站上的手动操作,获取一个project里的所有SRR ID

首先进入https://www.ncbi.nlm.nih.gov/sra/
输入你要找的这个编号:PRJNA257197
这里写图片描述
点击search
会看到很多检索结果
这里写图片描述
点击右上角的send to
这里写图片描述
选定File,并把Format改为RunInfo
点击Create File就生成了一个SraRunInfo.csv文件了
有没有发现,你其实只是把这种网页版的操作变成了几乎一一对应的命令行操作而已

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值