TCGA-命名小介

本文深入解析TCGA数据库中的样本命名规则,详细解释每个字段含义,并提供从一个患者多个样本中选择最优样本的策略,包括GDACfirehose和cBioPortal的处理方式。

#

TCGA是生信或者医学行业常见的公共数据库,在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
大家知道一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个,那该怎么取舍呢?

在取舍之前,当然要先搞清楚样本命名方式:

我们将此示图以”-“分割,具体拆开解读一下:

TCGA:Project, 所有TCGA样本名均以这个开头,标志
A6:Tissue source site,组织来源编码,如A6就表示来源于Christiana Healthcare中心的结肠癌组织。更多编码所代表的意义详见: 
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
6650:Participant, 参与者编号
01:Sample, 这两个数字可以说是最关键、最被大家注意的,其中编号01~09表示肿瘤,10~19表示正常对照,如下: 
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes 
所以在TCGA样本名中,这个位置最常见的就是01和11,当然偶尔也会有其他的数字
A:Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B,表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用-01B的样本数据:
所以命名至此,已经可以开始用于区别不同的样本了,以下将是更细节的描述:

11:Portion, 同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用
R:Analyte, 分析的分子类型,对应关系如下所示: 
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes
1774:Plate, 在一系列96孔板中的顺序,值大表示制板越晚
07:Center, 测序或鉴定中心编码,更多编码详见: 
https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center
一个借鉴的图片: 
 
更多内容详见: 
https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode 
http://docs.cavatica.org/docs/tcga-grch38-metadata

所以现在看这三个样本:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
其区别就在于,前两个使用的是患者的冰冻组织做的测序,而第三个用的是福尔马林固定石蜡包埋组织;而前两个样本的区别在于同一组织后续使用了不同的96孔板。

理解了命名规则及三者命名上的主要区别后,现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了,首先排除TCGA-A6-6650-01B-02R-A277-07,因为是-01B,福尔马林固定石蜡包埋组织!剩下的两个:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
先看看GDAC firehose遇到这种情况怎么解决,总结起来就是:

1、对RNA数据来说,Analyte为R的优先级最该,其次是R和T,而对于DNA层面的分析来说,D的优先级最高。 
2、如果Analyte相同,那就选择Portion和/或Plate值更大的。 
所以按照GDAC firehose的方法,最终保留TCGA-A6-6650-01A-11R-A278-07,因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚: 
https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163 
虽然看起来可能这么选比较准确,但是稍微有些麻烦~

然后是cBioPortal中的处理方式:

随机选择了一个,理由很简单啊,来源于同一个患者的癌组织样本差别不大,小编随机测试了两个样本,表达相关性值是大于0.8的。

所以如果遇到需要选择的时候,就仁者见仁了,建议天秤座的小伙伴们也不要太纠结到底哪个最好,当然如果你有不同的意见和看法,欢迎交流讨论!
 

Hugo_Symbol Entrez_Gene_Id TCGA-AB-2803-03 TCGA-AB-2804-03 TCGA-AB-2805-03 TCGA-AB-2806-03 TCGA-AB-2807-03 TCGA-AB-2808-03 TCGA-AB-2809-03 TCGA-AB-2810-03 TCGA-AB-2811-03 TCGA-AB-2812-03 TCGA-AB-2813-03 TCGA-AB-2814-03 TCGA-AB-2815-03 TCGA-AB-2816-03 TCGA-AB-2817-03 TCGA-AB-2818-03 TCGA-AB-2819-03 TCGA-AB-2820-03 TCGA-AB-2821-03 TCGA-AB-2822-03 TCGA-AB-2823-03 TCGA-AB-2824-03 TCGA-AB-2825-03 TCGA-AB-2826-03 TCGA-AB-2827-03 TCGA-AB-2828-03 TCGA-AB-2829-03 TCGA-AB-2830-03 TCGA-AB-2831-03 TCGA-AB-2832-03 TCGA-AB-2834-03 TCGA-AB-2835-03 TCGA-AB-2836-03 TCGA-AB-2837-03 TCGA-AB-2838-03 TCGA-AB-2839-03 TCGA-AB-2840-03 TCGA-AB-2841-03 TCGA-AB-2842-03 TCGA-AB-2844-03 TCGA-AB-2845-03 TCGA-AB-2846-03 TCGA-AB-2848-03 TCGA-AB-2849-03 TCGA-AB-2850-03 TCGA-AB-2851-03 TCGA-AB-2853-03 TCGA-AB-2854-03 TCGA-AB-2855-03 TCGA-AB-2856-03 TCGA-AB-2857-03 TCGA-AB-2858-03 TCGA-AB-2859-03 TCGA-AB-2860-03 TCGA-AB-2861-03 TCGA-AB-2862-03 TCGA-AB-2863-03 TCGA-AB-2864-03 TCGA-AB-2865-03 TCGA-AB-2866-03 TCGA-AB-2867-03 TCGA-AB-2868-03 TCGA-AB-2869-03 TCGA-AB-2870-03 TCGA-AB-2871-03 TCGA-AB-2872-03 TCGA-AB-2873-03 TCGA-AB-2874-03 TCGA-AB-2875-03 TCGA-AB-2877-03 TCGA-AB-2878-03 TCGA-AB-2879-03 TCGA-AB-2880-03 TCGA-AB-2881-03 TCGA-AB-2882-03 TCGA-AB-2883-03 TCGA-AB-2884-03 TCGA-AB-2885-03 TCGA-AB-2886-03 TCGA-AB-2887-03 TCGA-AB-2888-03 TCGA-AB-2889-03 TCGA-AB-2890-03 TCGA-AB-2892-03 TCGA-AB-2893-03 TCGA-AB-2894-03 TCGA-AB-2895-03 TCGA-AB-2896-03 TCGA-AB-2897-03 TCGA-AB-2898-03 TCGA-AB-2899-03 TCGA-AB-2900-03 TCGA-AB-2901-03 TCGA-AB-2903-03 TCGA-AB-2904-03 TCGA-AB-2905-03 TCGA-AB-2906-03 TCGA-AB-2907-03 TCGA-AB-2908-03 TCGA-AB-2909-03 TCGA-AB-2910-03 TCGA-AB-2911-03 TCGA-AB-2912-03 TCGA-AB-2913-03 TCGA-AB-2914-03 TCGA-AB-2915-03 TCGA-AB-2916-03 TCGA-AB-2917-03 TCGA-AB-2919-03 TCGA-AB-2920-03 TCGA-AB-2921-03 TCGA-AB-2922-03 TCGA-AB-2923-03 TCGA-AB-2924-03 TCGA-AB-2925-03 TCGA-AB-2926-03 TCGA-AB-2927-03 TCGA-AB-2928-03 TCGA-AB-2929-03 TCGA-AB-2930-03 TCGA-AB-2931-03 TCGA-AB-2932-03 TCGA-AB-2933-03 TCGA-AB-2934-03 TCGA-AB-2935-03 TCGA-AB-2936-03 TCGA-AB-2937-03 TCGA-AB-2938-03 TCGA-AB-2939-03 TCGA-AB-2940-03 TCGA-AB-2941-03 TCGA-AB-2942-03 TCGA-AB-2943-03 TCGA-AB-2944-03 TCGA-AB-2945-03 TCGA-AB-2946-03 TCGA-AB-2947-03 TCGA-AB-2948-03 TCGA-AB-2949-03 TCGA-AB-2950-03 TCGA-AB-2952-03 TCGA-AB-2954-03 TCGA-AB-2955-03 TCGA-AB-2956-03 TCGA-AB-2957-03 TCGA-AB-2959-03 TCGA-AB-2963-03 TCGA-AB-2964-03 TCGA-AB-2965-03 TCGA-AB-2966-03 TCGA-AB-2967-03 TCGA-AB-2968-03 TCGA-AB-2969-03 TCGA-AB-2970-03 TCGA-AB-2971-03 TCGA-AB-2972-03 TCGA-AB-2973-03 TCGA-AB-2974-03 TCGA-AB-2975-03 TCGA-AB-2976-03 TCGA-AB-2977-03 TCGA-AB-2978-03 TCGA-AB-2980-03 TCGA-AB-2982-03 TCGA-AB-2983-03 TCGA-AB-2984-03 TCGA-AB-2985-03 TCGA-AB-2986-03 TCGA-AB-2987-03 TCGA-AB-2988-03 TCGA-AB-2989-03 TCGA-AB-2990-03 TCGA-AB-2991-03 TCGA-AB-2992-03 TCGA-AB-2993-03 TCGA-AB-2994-03 TCGA-AB-2995-03 TCGA-AB-2996-03 TCGA-AB-2997-03 TCGA-AB-2998-03 TCGA-AB-2999-03 TCGA-AB-3000-03 TCGA-AB-3001-03 TCGA-AB-3002-03 TCGA-AB-3005-03 TCGA-AB-3006-03 TCGA-AB-3007-03 TCGA-AB-3008-03 TCGA-AB-3009-03 TCGA-AB-3011-03 TCGA-AB-3012-03跟以下的文件的中的这些ID要怎么修改
最新发布
10-01
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值