TCGA 命名详解

最新推荐文章于 2025-07-19 14:28:28 发布

转载最新推荐文章于 2025-07-19 14:28:28 发布 · 2.1k 阅读

5 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/qq_35203425/article/details/80851862

记事类专栏收录该内容

8 篇文章

订阅专栏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.youkuaiyun.com/qq_35203425/article/details/80851862
在TCGA中，一个患者可能会对应多个样本，如TCGA-A6-6650可以得到3个样本数据：

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
大家知道一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素（以”-“分割），例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个，那该怎么取舍呢？

在取舍之前，当然要先搞清楚样本命名方式：

我们将此示图以”-“分割，具体拆开解读一下：

TCGA：Project, 所有TCGA样本名均以这个开头，标志
A6：Tissue source site，组织来源编码，如A6就表示来源于Christiana Healthcare中心的结肠癌组织。更多编码所代表的意义详见：
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
6650：Participant, 参与者编号
01：Sample, 这两个数字可以说是最关键、最被大家注意的，其中编号01~09表示肿瘤，10~19表示正常对照，如下：
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
所以在TCGA样本名中，这个位置最常见的就是01和11，当然偶尔也会有其他的数字
A：Vial, 在一系列患者组织中的顺序，绝大多数样本该位置编码都是A; 很少数的是B，表示福尔马林固定石蜡包埋组织，已被证明用于测序分析的效果不佳，所以不建议使用-01B的样本数据：
所以命名至此，已经可以开始用于区别不同的样本了，以下将是更细节的描述：

11：Portion, 同属于一个患者组织的不同部分的顺序编号，同一组织会分割为100-120mg的部分，分别使用
R：Analyte, 分析的分子类型，对应关系如下所示：
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes
1774：Plate, 在一系列96孔板中的顺序，值大表示制板越晚
07：Center, 测序或鉴定中心编码，更多编码详见：
https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center
一个借鉴的图片：

更多内容详见：
https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
http://docs.cavatica.org/docs/tcga-grch38-metadata

所以现在看这三个样本：

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
其区别就在于，前两个使用的是患者的冰冻组织做的测序，而第三个用的是福尔马林固定石蜡包埋组织；而前两个样本的区别在于同一组织后续使用了不同的96孔板。

理解了命名规则及三者命名上的主要区别后，现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了，首先排除TCGA-A6-6650-01B-02R-A277-07，因为是-01B，福尔马林固定石蜡包埋组织！剩下的两个：

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
先看看GDAC firehose遇到这种情况怎么解决，总结起来就是：

1、对RNA数据来说，Analyte为R的优先级最该，其次是R和T，而对于DNA层面的分析来说，D的优先级最高。
2、如果Analyte相同，那就选择Portion和/或Plate值更大的。
所以按照GDAC firehose的方法，最终保留TCGA-A6-6650-01A-11R-A278-07，因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚：
https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163
虽然看起来可能这么选比较准确，但是稍微有些麻烦~

然后是cBioPortal中的处理方式：

随机选择了一个，理由很简单啊，来源于同一个患者的癌组织样本差别不大，小编随机测试了两个样本，表达相关性值是大于0.8的。

所以如果遇到需要选择的时候，就仁者见仁了，建议天秤座的小伙伴们也不要太纠结到底哪个最好，当然如果你有不同的意见和看法，欢迎交流讨论！