NCBI dbGap数据下载记录

该博客详细介绍了如何下载和安装Aspera连接器,通过conda安装sra-tools,并使用ascp客户端从dbGaP下载表型数据。在下载完成后,使用解密秘钥加载并解密文件,接着下载RUN数据,最后对.sra文件进行解密和删除。整个过程涉及生物信息学数据的获取和处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考了文档
准备项:PI账号。


  • 下载和安装软件wget https://download.asperasoft.com/download/sw/connect/3.9.1/ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz

解压:tar zxf ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz

安装:sh ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh

添加到环境变量:

echo ‘PATH=$PATH:~/.aspera/connect/bin/’ >> ~/.bashrc

source ~/.bashrc

测试 ascp --help

使用conda安装sra-tools

conda install -c bioconda sra-tools

  • 下载表型数据

使用ascp客户端,照着dbGaP的指示操作,然后更改程序或配置文件路径即可(也可以使用krt文件下载)
在这里插入图片描述

  • 在My projects里面下载解密秘钥,加载秘钥文件
    vdb-config --import ?.ngc
  • 切换到Repository文件夹下,运行解密命令,直接解密文件夹
  • vdb-decrypt
  • 下载RUN数据
cat c1-list | while read row
do
prefetch  -X 200G ${row} -O . > ./c1-log/log.${row}

echo "################Download sra finished########################" >> ./c1-log/log.${row}

vdb-decrypt --decrypt-sra-files ${row}.sra /NAS/HIV_TCGA/c1/ >> ./c1-log/log.${row}

echo "################Decrypt sra finished########################" >> ./c1-log/log.${row}

rm ./${row}.sra

echo "################Rm sra finished########################" >> ./c1-log/log.${row}

done
### 如何从NCBI下载原始数据文件 #### 使用EBI作为替代源 由于直接从NCBI下载可能会遇到较慢的速度问题,可以考虑使用欧洲生物信息学研究所(EBI)来代替。因为这两个机构之间的数据库资源是共享的,这意味着可以从EBI获取相同的数据集而无需担心速度上的瓶颈[^1]。 #### 利用SRA工具包进行下载 对于希望直接通过命令行操作并更灵活控制下载过程的情况来说,安装并配置好`SRA Toolkit`是一个不错的选择。此套件允许用户基于特定样本编号(SRA accession number),即所谓的"SRA号", 来检索和下载来自NCBI SRA数据库中的序列读取档案(Sequence Reads Archives)。具体步骤如下: 1. 访问[SRA ToolKit官方GitHub页面](https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit)[^4],按照说明完成软件包的下载与安装; 2. 获取目标样品对应的唯一识别码(Accession Number),这通常可以在论文补充材料或者公共基因表达综合(GEO)项目描述页找到; 3. 执行预处理命令以准备环境变量设置等必要条件; ```bash prefetch --option-file accessions.txt ``` 上述代码片段展示了如何批量下载多个由文本列表指定的目标记录。其中`accessions.txt`应包含一行或多行有效的SRA访问ID。 4. 对于单个条目,则可以直接调用带有相应参数值的`fastq-dump`指令来进行转换成FASTQ格式输出: ```bash fastq-dump SRRxxxxxx ``` 这里假设`SRRxxxxxx`代表具体的某一条目的标识符。 #### 探索SRA结构化层次关系 值得注意的是,在尝试定位所需的具体实验或运行之前,了解SRA内部是如何组织这些元数据是非常有帮助的。整个体系被划分为四个主要级别:研究(BioProject), 实验室提交批次(BioSample), 测序计划(Experiment), 和实际执行过程中产生的每一轮次的结果(Run)。理解这一架构有助于更加精准地锁定感兴趣的资料位置[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值