2016.01.18回顾

1、开始进入PHP的学习,搭建了WAMP的环境,单独写一篇博文记录

2、学习了php,php标签

<?php
    some code here
?>
php输出echo、print,echo效率高过print(无返回值,print返回1),print每次只能输出一个字符串。变量定义加$,引用也可以直接在字符串中引用,不用格式化字符串,全局变量不能值传递进入函数内,可以用global关键字引用传递进去,关键字不区分大小写,变量区分大小写,还有一个static类型变量,局部函数释放时可以不释放局部变量。

3、了解了一下node.js

4、晚上处理的事物比较杂,拿快递,拍照,上传,和黑店卖家沟通,退款,发现新的地下商业模式(黑店卖家发帖推广,全部发的php论坛,论坛全是发广告的,如果是正规论坛必然会删除这些帖子,然后我发现这些论坛是专门有人在养,养的话,他又怎样盈利呢?也有广告位,但是根本就不会有人正常浏览这种论坛啊,除非baidu索引过来,有流量吗?骗SB吗?),讨论,思考!

<think>好的,用户现在的问题是如何获取GBM突变数据的MAF文件,也就是gbm_mutations.maf,用于生物信息学分析。首先,我需要回顾之前的对话历史,确保回答的一致性和连贯性。之前用户提到过高风险和低风险组中GBM的前15个突变基因的分析,并提供了R代码框架,使用MAF文件和风险分组信息。现在用户的需求是获取这个MAF文件,可能是为了进行类似的分析。 用户可能对生物信息学数据获取不太熟悉,特别是TCGA数据库的使用。他们可能知道MAF文件的重要性,但不确定具体的下载步骤。需要详细说明不同的获取途径,并比较它们的优缺点,比如通过GDC门户、使用R包TCGAbiolinks,或者通过Xena浏览器。此外,用户可能需要知道如何处理下载的数据,比如从Firehose获取的MAF文件可能需要解压和整理。 还需要考虑用户的实际操作能力,是否需要命令行操作,比如使用awk命令处理MAF文件,如之前引用中提到的。但根据当前问题,用户主要关注如何获取MAF文件,而不是后续处理,所以可能需要简要提及后续步骤,但重点放在获取方法上。 另外,用户提到了引用[1]中的awk命令,但根据上下文,这可能是一个示例,用户的实际需求是获取原始MAF文件。因此,需要明确回答获取MAF的方法,而不是处理已有MAF文件的子集。 可能的陷阱包括用户混淆不同数据源(如TCGA的MAF和Firehose的MAF),或者不知道如何转换MAF格式(如Xena的TSV转MAF)。需要明确说明每个步骤的注意事项,例如使用TCGAbiolinks时的数据类别选择,或者使用Xena时的格式转换。 用户可能还需要了解数据版本和预处理的重要性,比如不同版本的MAF文件可能包含不同的注释信息,或者需要合并多个文件。此外,数据访问权限的变化,如GDC的数据访问需要dbGaP授权,这也是需要提醒用户的重点。 最后,要确保回答结构清晰,分步骤说明不同的方法,并提供验证数据完整性的方法,如检查基因突变频率是否符合文献报道。同时,生成的相关问题需要与当前主题相关,帮助用户进一步深入,比如数据预处理、差异分析或可视化。</think>根据生物信息学研究的常规流程,获取胶质母细胞瘤(GBM)突变数据的MAF文件可通过以下途径实现,以下是具体方法和注意事项: --- ### **方法一:通过TCGA官方数据库下载** 1. **访问GDC数据门户** 访问[GDC Data Portal](https://portal.gdc.cancer.gov/),按以下步骤操作: - 选择**Projects** → **TCGA-GBM** - 在**Files**标签下,筛选文件类型为`MAF`(Mutation Annotation Format) - 选择包含体细胞突变(somatic mutations)的MAF文件,如`TCGA.GBM.somatic.maf.gz` - 需注册并获取dbGaP授权(针对受控访问数据)[^1] 2. **使用R包TCGAbiolinks**(自动化下载) ```r library(TCGAbiolinks) query <- GDCquery(project = "TCGA-GBM", data.category = "Simple Nucleotide Variation", data.type = "Masked Somatic Mutation", workflow.type = "Aliquot Ensemble Somatic Variant Merging and Masking") GDCdownload(query) maf_data <- GDCprepare(query) ``` --- ### **方法二:通过Firehose获取标准化数据** 1. **访问Broad GDAC** 下载Firehose预处理的MAF文件(已标准化): ```bash # 下载GBM突变数据 wget http://gdac.broadinstitute.org/runs/stddata__2016_01_28/data/GBM/20160128/gdac.broadinstitute.org_GBM.Mutation_Packager_Calls.Level_3.2016012800.0.0.tar.gz # 解压后找到MAF文件 tar -zxvf gdac.broadinstitute.org_GBM.Mutation_Packager_Calls.Level_3.2016012800.0.0.tar.gz ``` --- ### **方法三:使用UCSC Xena浏览器** 1. **在线获取MAF格式数据** - 访问[Xena Browser](https://xenabrowser.net/) - 选择`TCGA GBM`数据集 → 下载`SNP&CNV`模块中的`MC3 MAF`文件 - 注:Xena提供TSV格式,可用以下命令转为MAF: ```bash awk 'BEGIN{FS=OFS="\t"} {print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10,$11,$12,$13,$14,$15,$16}' xena_data.tsv > gbm_mutations.maf ``` --- ### **关键验证步骤** 1. **数据完整性检查** ```r library(maftools) maf <- read.maf("gbm_mutations.maf") plotmafSummary(maf) # 验证突变类型分布(如错义突变占比) ``` - 预期结果:GBM中高频突变基因如$EGFR$、$PTEN$、$TP53$应位于突变频率前10位[^2] 2. **注释信息核对** - 确保MAF包含必要字段:`Hugo_Symbol`、`Variant_Classification`、`Tumor_Sample_Barcode`、`Chromosome`等 --- ### **注意事项** 1. **数据版本差异** - Firehose数据含标准化注释,而GDC原始数据需自行处理VCF转MAF 2. **样本匹配** - 若需结合临床数据(如风险分组),需确保`Tumor_Sample_Barcode`与临床信息文件一致 3. **突变类型过滤** - 建议排除同义突变(如`Variant_Classification = Silent`)以提高分析特异性 --- ### **应用场景示例** - **驱动基因筛选**:通过`maftools`包中的`oncodrive`函数识别高频驱动基因 - **突变特征分析**:使用`deconstructSigs`包解析GBM的突变特征谱 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值