TCGA数据下载教程:使用官方gdc-client软件下载

本教程详细介绍如何使用TCGA官方提供的gdc-client工具下载白血病(AML)相关的miRNA数据,包括安装配置DataTransferTool及使用命令行进行下载。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

本教程涉及内容:

  1. TCGA网页数据下载,检索方式
  2. gdc-client软件安装和配置
  3. 使用gdc-client下载TCGA数据
[补充]
  1. 怎么根据TCGA官方的API下载数据?简单几句命令轻轻松松下载想要的TCGA大数据
  2. Python脚本下载TCGA大数据,非常简单,开放源代码
  3. 图形界面下载TCGA大数据,GitHub项目
  4. 插播CPI Retrieval System
    自己搭建的化合物和 蛋白质相互作用关系检索系统。本系统是基于深度学习模型自动提取文献摘要中的关系而来。欢迎访问指教。
    这里写图片描述

正文开始

本教程使用原生态的TCGA官方数据下载方式,比使用第三方的工具具有数据更新快,真实的特点,当然如果觉得麻烦可以使用第三方的一些工具,单对于想要真正了解TCGA数据库的人,还是使用原生态的TCGA方式。

TCGA改版后,下载方式变得大为不同,数据都整合在GDC(Genomic Data Commons)的DATA PORTAL中。
TCGA官网:https://cancergenome.nih.gov/
TCGA数据下载网址:https://portal.gdc.cancer.gov/
Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
如果下载慢,我这提供一份下载好的连接:
https://github.com/chenwi/TCGAD/blob/master/gdc-client_v1.3.0_Windows_x64.zip

TCGA官网数据检索

如果在官网下,需要点击右边的Launch Data Portal,也就是上面TCGA数据下载的网址
这里写图片描述
进入到数据下载页面(可以直接点击上面TCGA数据下载网址)后,看到的目前版本如下,目前已有40个project,32555个case。
这里写图片描述

我以白血病(AML)为例,下载与白血病相关的miRNA数据。
首先点击上图的Repository进入数据检索界面,你看到的界面如下:
这里写图片描述
File栏目下,选择Experiment StrategymiRNA-Seq 还有Data TypemiRNA Expression Quantification;然后在Case栏目下选择Primary Site 中的BloodBone Marrow,和Disease TypeAcute Myeloid Leukemia,这时候你会看到界面变成下面这样了:
这里写图片描述
因为一般只能下载open数据,所有,可以再上面图中Access Level的地方点击一下 ,就会得到知识open的数据了(不点击也没关系,反正后期只会下载open的数据)

这次选择下载的是miRNA-Seq数据,上图显示共有265个case,301个文件,为什么会比case数多呢,说明一些case不止对应1个miRNA-Seq样本的文件,有些是重复。所有数据一共15.14MB,也不大,可以直接在网页下载,但是,本教程是讲解使用官方API下载,数据小更好演示,下面具体讲解使用gdc-client下载数据。(TCGA数据库在数据下载有规定:让Cart文件夹大于50M时,只能通过Data Transfer Tool工具进行下载。所以我这次要使用Data Transfer Tool工具来下载数据。)

首先点击上图中Manifest 这时候会下载一个包含所有文件名的小txt文件,是后面下载TCGA数据所必须准备的。我下载保存到下面文件夹了:
这里写图片描述

安装配置 Data Transfer Tool

如何安装Data Transfer Tool,也就是gdc-client这个接口软件呢?
要安装Data Transfer Tool,需要到下载页面下载该工具。
Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
进去界面后,找到下图的地方,并选择windows环境下的工具,也就是打钩的那个。下载后解压缩即可使用。至于怎么用,我刚开始看到是.exe文件,但是这个软件是需要用命令行来使用的。

这里写图片描述
我把该工具解压到下面这个文件夹,根据图标,说明这个软件是用Python写的,然后使用Pyinstaller打包的。
!!!!!!!!!!!!!!!**注意**!!!!!!!!!!!!!!!!!
该软件不能解压到含有中文名的文件夹下,否则会报错,不能使用!!!
这里写图片描述
具体使用:打开CMD命令行窗口,输入-h命令,可以看软件是否能使用。
这里写图片描述

把gdc-client加入环境变量

有没有发现我的这个命令很长?那是因为,我还没把这个软件加入环境变量,如果以后想在任何一个路劲简单使用gdc-client这个命令,那就需要把这个软件的路径加到环境变量。就是在Path加入刚刚软件所在的路径即可”。具体操作如下:
打开电脑控制面板——》系统和安全——》系统——》高级系统设置——》环境变量——》Path——》“加入你的gdc-client所在路径” ,然后应用保存。

  1. 打开电脑控制面板
    这里写图片描述
  2. 系统和安全
    这里写图片描述
  3. 系统
    这里写图片描述
  4. 高级系统设置
    这里写图片描述
  5. 环境变量
    这里写图片描述
  6. Path
    这里写图片描述

上面配置都完成后,看下图,现在简单输入gdc-client -h 就行了。
这里写图片描述

使用gdc-client下载TCGA数据

下载方式很简单,还记得上文中下载的Manifest文件吧,然后在windows下打开cmd,并在其中输入下载命令:

gdc-client download -m gdc_manifest.2018-07-02.txt

然后就是慢慢下载了,如果中间有报错断了,一般就是网络不好的原因,重新下载或者换个时间段就行了。
最后就下载完了,一共301个文件,命令行界面和文件夹界面如下所示:
这里写图片描述
这里写图片描述

此教程结束。

其他使用python自定义脚本下载,以及将多个文件合并到一起的教程,请参考我的其他博文。

<think>嗯,用户让我介绍一下TCGA数据下载方法。首先,我需要确认自己对TCGA的了解是否正确。TCGA是癌症基因组图谱计划,收集了大量癌症患者的基因组数据。现在数据应该存储在GDC(Genomic Data Commons)平台上,对吧?所以用户可能需要知道如何从GDC获取数据。 接下来,我得考虑用户可能的背景。他们可能是研究人员或者学生,刚开始接触生物信息学,对数据下载流程不熟悉。所以需要详细但清晰的步骤,避免使用太多专业术语,或者如果用了,要解释清楚。 用户的问题是关于下载,所以需要分步骤说明。首先访问GDC官网,然后如何选择数据,比如项目选择TCGA,然后是癌症类型、数据类型等。这里可能需要解释不同的数据类型,比如临床数据、基因表达、突变数据等,帮助用户理解选择时的选项。 然后,下载方式可能有几种,比如通过网页界面手动下载,或者使用GDC API工具。对于不熟悉编程的用户,网页下载更合适,但如果有大量数据,API会更高效。所以需要分别介绍这两种方法,包括使用GDC Data Transfer Tool和GDC API的示例命令,比如用curl或者gdc-client。这里要确保命令正确,避免拼写错误。 另外,需要注意权限问题,比如是否需要dbGaP授权,有些数据是受控访问的。用户可能不知道这一点,所以需要提醒他们检查数据的访问权限,并提供申请链接。 还有数据格式和处理的问题,下载后的文件通常是BAM、VCF、TSV等,可能需要特定的工具处理,比如GenomicRanges或Samtools。这部分可以简要提及,让用户知道后续步骤可能需要的学习。 可能用户没有提到的需求包括批量下载的技巧,或者如何筛选所需的样本,比如根据临床信息。这时候可以建议使用GDC的过滤器和标签,比如选择原发性肿瘤样本而不是正常组织。 需要确保每个步骤都清晰,避免遗漏关键点,比如登录账户,或者安装GDC工具前的依赖项。另外,中英文术语的转换要准确,比如“突变数据”对应“Mutation Data”。 最后,检查是否有过时信息,比如GDC平台是否已经迁移完毕,或者是否有新的工具替代旧方法。确保提供的链接正确有效,比如GDC官网的URL,dbGaP的申请链接等。 总结下来,回答的结构应该是先介绍TCGAGDC,然后分步骤说明下载流程,包括访问网站、选择数据下载方式,注意事项如权限和数据处理,最后提供帮助资源。这样用户能够逐步跟随操作,解决问题。</think>以下是对TCGA数据下载的逐步说明: $\boxed{\text{TCGA数据库简介}}$ TCGA(The Cancer Genome Atlas)是由美国国家癌症研究所(NCI)建立的癌症基因组数据库,包含33种癌症类型、2万+病例的多组学数据(基因组、转录组、表观组等)及临床信息。2016年后数据迁移至$\text{GDC(Genomic Data Commons)}$平台统一管理。 $\boxed{\text{下载前准备}}$ 1. **注册账户**:需创建$\text{GDC账户}$(免费) - 官网:[GDC Portal](https://portal.gdc.cancer.gov) 2. **明确需求**: - 癌症类型(e.g., TCGA-BRCA) - 数据类型(RNA-Seq/WES/甲基化/临床数据等) - 数据层级(Raw data/Processed data) $\boxed{\text{下载流程}}$ $$ \text{方法1:网页端下载(适合小批量数据)} $$ 1. 访问GDC数据门户 2. 在「Repository」页面: - 项目选择:TCGA - 病例筛选:通过$\text{Filters}$按器官/疾病类型/样本类型筛选 - 文件筛选:选择$\text{Data Category}$(如Transcriptome Profiling)和$\text{Data Format}$(如BAM/TSV) 3. 加入购物车后点击「Download」生成MANIFEST文件 $$ \text{方法2:API工具下载(推荐批量数据)} $$ 1. 安装GDC客户端: ```bash pip install gdc-client ``` 2. 使用manifest文件下载: ```bash gdc-client download -m gdc_manifest.txt ``` 3. 或直接通过文件ID下载: ```bash curl --remote-name https://api.gdc.cancer.gov/data/<文件UUID> ``` $\boxed{\text{注意事项}}$ 1. **数据权限**: - 开放数据(Open Access):直接下载 - 受控数据(Controlled Access):需申请$\text{dbGaP}$权限([申请链接](https://dbgap.ncbi.nlm.nih.gov)) 2. **文件类型**: - 原始数据:BAM/FASTQ(需大存储空间) - 处理数据:FPKM/Counts(推荐初学者使用) 3. **元数据获取**: - 临床数据通过$\text{JSON/XML}$格式单独下载 - 使用$\text{TCGAbiolinks}$(R包)可自动化下载与整合 $\boxed{\text{数据处理建议}}$ - 使用$\text{GenomicRanges}$(R)处理BED文件 - 使用$\text{Samtools}$转换BAM到FASTQ - 使用$\text{GATK}$进行突变分析 $\boxed{\text{参考资源}}$ 1. GDC官方文档:[GDC Docs](https://docs.gdc.cancer.gov) 2. TCGA数据目录:[TCGA Data Matrix](https://tcga-data.nci.nih.gov/docs/publications/tcga/) 3. 生物信息分析工具:[Bioconductor TCGA Workflow](https://bioconductor.org/packages/release/workflows/html/TCGAWorkflow.html) 如需特定癌症类型的数据下载演示,请提供具体需求可给出针对性示例。
评论 104
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值