TCGA的gdc-client的下载优化

本文介绍如何通过调整gdc-client的配置,如http_chunk_size、wait_time和retry_amount等,解决在下载TCGA数据manifest文件时的中断问题,提供了一种提高下载稳定性和效率的方法。
该文章已生成可运行项目,

1、背景

最近,在使用TCGA数据,需要从TCGA下载数据。当数据文件数量较少的时候,为了偷懒(其实也麻烦),可以一个一个的下载。但又有时候为了获取更多的数据,我们可以通过 gdc-client 程序,基于manifest进行批量下载。

问题来了:采用gdc-client(linus)/ gdc-client.ext(Windows)download -m gdc-manifest.txt下载的时候,时常中断???

2、解决办法

修改 gdc-client download 的配置文件。

2.1 查看默认配置文件

命令:./gdc-client settings download

./gdc-client settings download

[download]
dir = .
save_interval = 1073741824
http_chunk_size = 1048576
no_segment_md5sum = False
no_file_md5sum = False
no_verify = False
no_related_files = False
no_annotations = False
no_auto_retry = False
retry_amount = 1
wait_time = 5.0
server = https://api.gdc.cancer.gov
n_processes = 8

2.2 优化配置文件

新的文件名称:gdc-client.dtt
优化内容如下:主要可以配置的是http_chunk_size、wait_time、retry_amount、no_verify、n_processes

[download]
no_auto_retry = False
no_file_md5sum = False
save_interval = 1073741824
retry_amount = 6
n_processes = 4
no_annotations = False
no_related_files = False
http_chunk_size = 4096
no_segment_md5sum = False
server = https://api.gdc.cancer.gov
wait_time = 25.0
no_verify = True
dir = .    

优化点:
(1)http_chunk_size:http请求的数据块大小。如果越大,请求等待的时间越长,从而导致请求超时,下载中断。所以,为了保证每一次请求数据块都能顺利到达本地,可以适当调小一点(关键步骤)
(2)wait_time:http请求的等待时间,如果超过这个等待时间,下载会中断,可适当调大一点
(3)retry_amount:http请求重试次数,比如说超过等待时间,就会再重新尝试访问,尝试访问次数超过设定值,下载就会中断,可以适当调大一点
(4)no_verify:为了加快下载速度,可以不做校验(但不保证数据的完整性)
(5)n_processes:下载需要的核数,依据自己的CPU大小进行配置

2.3 执行

gdc-client.exe download --config gdc-client.dtt -m gdc_manifest.txt
本文章已经生成可运行项目
### 在 Linux 系统下使用 `gdc-client` 下载 TCGA 数据集 要使用 `gdc-client` 下载 TCGA 数据集,首先需要下载并安装该工具,然后准备一个包含所需文件 ID 的清单文件(manifest),最后通过命令行执行下载任务。 #### 1. 下载 `gdc-client` 工具 使用 `wget` 下载适用于 Linux 的 `gdc-client` 工具。例如,对于 Ubuntu x64 系统且 Python 3.7 环境,可以运行以下命令: ```bash wget --no-check-certificate https://gdc.cancer.gov/files/public/file/gdc-client_v1.6.0_Ubuntu_x64-py3.7_0.zip ``` 下载完成后,解压该 ZIP 文件并进入解压后的目录[^4]。 #### 2. 安装 `gdc-client` 将 `gdc-client` 可执行文件移动到系统路径中,以便全局使用。可以将其复制到 `/usr/local/bin` 目录下: ```bash sudo cp gdc-client /usr/local/bin/ ``` 这样可以确保在任何位置都能直接运行 `gdc-client` 命令[^2]。 #### 3. 准备文件清单(Manifest) 在 GDC 官网通过数据筛选功能生成一个包含所需文件的清单(manifest),并将其下载到本地。该清单文件通常是一个包含文件 ID 和下载路径的文本文件。确保清单文件中包含你所需的 TCGA 数据集文件信息[^3]。 #### 4. 使用 `gdc-client` 下载数据 使用以下命令开始下载数据: ```bash gdc-client download -m path/to/your/manifest.txt ``` 其中 `path/to/your/manifest.txt` 是你准备的清单文件路径。默认情况下,下载的文件会保存在当前目录下的 `gdc_download_<timestamp>` 文件夹中。可以通过 `-d` 参数指定自定义下载目录: ```bash gdc-client download -m path/to/your/manifest.txt -d /path/to/download/directory ``` 如果需要验证下载文件的完整性,可以使用 `--no-cache` 参数强制重新下载所有文件,或者使用 `--retry` 参数设置重试次数以应对网络问题[^1]。 #### 5. 其他常用选项 - **查看帮助信息**:运行 `gdc-client --help` 获取所有可用命令和参数。 - **更新工具**:定期检查 GDC 官方网站以获取最新版本的 `gdc-client`,确保功能和安全性保持最新。 --- ###
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值