TCGA肿瘤基因数据的访问(二)

TCGA项目数据及其它肿瘤医学研究数据存档于GDC Portal。网站提供丰富的基因测序与临床信息,涵盖多种实验策略与数据分析流程,如SNV、CNV分析及基因表达研究。

TCGA(The Cancer Genome Atlas)项目完成后,最终和其它的一些肿瘤医学项目一起归档在 GDC Portal网站,方便人们访问。

网址是  https://portal.gdc.cancer.gov

其中除了TCGA的数据还有其它一些医学项目产生的基因测序数据,以及临床信息数据。

网站首页如下:

Screenshot 2019-06-01 at 2.23.57 PM.png

左侧可以点击Projects 根据项目类型,实验类型,基因突变类型搜索样本或数据信息, 也可以在搜索框内直接搜索人体组织部位,基因名或者项目名直接查询, 点击Projects 出现页面如下:

Screenshot 2019-06-01 at 2.32.32 PM.png

这里列出了所有的Projects 中的病人突变频率最高的一些基因名称,可以看到TP53的突变最常见,这是一个抑癌基因,位于hg19  chr17:7,571,720-7,590,868.

右侧的饼图是不同项目中的病人(Case)数目所占比例,最高的是FM-AD这个项目,应该是在TCGA之后发起的项目,目前也已完成。全称是Foundation Medicine Adult Cancer Clinical Dataset,Foundation Medicine是一家做肿瘤基因检测的公司,已经于2018年6月被罗氏制药收购。

数据的信息列表如下:

Screenshot 2019-06-01 at 2.32.58 PM.png

第一列是项目名称,第二列是疾病类型,第三列是发生部位,第四列是来源的主项目,第五列是病人例数,后面是这个项目包含的不同的数据类型例数。

左侧用于筛选的选中栏包括

Primary Site

Program

Disease Type

Data Category  (数据类型, 主要是病人临床信息,测得的基因数据,分析得到的肿瘤病人身上突变的分类,以及基因表达异常和甲基化信息等)

Experimental Strategies (实验策略,包括全基因组测序,基因杂交芯片,转录组测序等等)

Screenshot 2019-06-01 at 2.33.19 PM.png

Screenshot 2019-06-01 at 2.33.37 PM.png

Screenshot 2019-06-01 at 2.33.49 PM.png

Screenshot 2019-06-01 at 2.34.05 PM.png

Screenshot 2019-06-01 at 2.34.16 PM.png

如果是NGS测序得到的数据(Sequence Reads一般是Fastq或Unmapped BAM格式),那么分析的流程可以参考:

https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/DNA_Seq_Variant_Calling_Pipeline/

https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

这些原始的Fastq,以及比对产生的BAM,以及突变的VCF格式数据都是限制访问的,必须要注册GDC的账号,经过许可才能下载。

我们可以获取的是这些数据经过整合之后的更下游的数据,个人觉得是因为上游的原始数据以及重分析过程本来是比较耗费硬件或资源的,大多数研究人员是不太可能重分析如此大量的数据。

如果要访问这些数据,可以点击Repository

Screenshot 2019-06-01 at 2.36.57 PM.png

Screenshot 2019-06-01 at 2.40.41 PM.png

如图,可以看到bam和vcf.gz 文件是controlled, 一些xlsx文件是open的

Screenshot 2019-06-01 at 3.25.06 PM.png

可以从左侧的浮选框, Access选中open, Workflow Type选中我们需要的数据结果。

其中MuSE,MuTect2,SomaticSniper,VarScan2是分析SNV(点突变)的工具名称,

DNAcopy和GISTIC是分析CNV(拷贝数变异)的工具,

HTSeq和STAR都是分析转录组数据的基因表达(mRNA)的工具,

BSGSC则是用于分析miRNA(微小RNA)的表达的,

miRNA是一种长度在22nt左右的RNA,主要功能是基因沉默,可以调控mRNA的表达。

Liftover则是用于分析基因组上的甲基化位点和甲基化水平的工具。https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Methylation_LO_Pipeline/

来源:华为云社区  作者:benymorre

通过短时倒谱(Cepstrogram)计算进行时-倒频分析研究(Matlab代码实现)内容概要:本文主要介绍了一项关于短时倒谱(Cepstrogram)计算在时-倒频分析中的研究,并提供了相应的Matlab代码实现。通过短时倒谱分析方法,能够有效提取信号在时间与倒频率域的特征,适用于语音、机械振动、生物医学等领域的信号处理与故障诊断。文中阐述了倒谱分析的基本原理、短时倒谱的计算流程及其在实际工程中的应用价值,展示了如何利用Matlab进行时-倒频图的可视化与分析,帮助研究人员深入理解非平稳信号的周期性成分与谐波结构。; 适合人群:具备一定信号处理基础,熟悉Matlab编程,从事电子信息、机械工程、生物医学或通信等相关领域科研工作的研究生、工程师及科研人员。; 使用场景及目标:①掌握倒谱分析与短时倒谱的基本理论及其与傅里叶变换的关系;②学习如何用Matlab实现Cepstrogram并应用于实际信号的周期性特征提取与故障诊断;③为语音识别、机械设备状态监测、振动信号分析等研究提供技术支持与方法参考; 阅读建议:建议读者结合提供的Matlab代码进行实践操作,先理解倒谱的基本概念再逐步实现短时倒谱分析,注意参数设置如窗长、重叠率等对结果的影响,同时可将该方法与其他时频分析方法(如STFT、小波变换)进行对比,以提升对信号特征的理解能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值