上期我们讲完了转录组的基本原理、实验设计和上游分析,在开始差异基因分析之前,我们先来了解一下常见的RNA-seq的定量方式
主要的标准化方式为:
-
RPKM
(Reads Per Kilobase of transcript per Million mapped reads) -
FPKM
(Fragments Per Kilobase of transcript per Million mapped fragments) -
TPM
(Transcripts Per Million)
为什么要进行标准化?
-
在测序中,覆盖度往往不同,组与组之间的总表达量往往差异巨大::在RNA测序(RNA-seq)和基因组测序中,测序深度是指在整个基因组或转录组中,每个碱基被测序的平均次数。
-
测序深度对于确保测序数据的准确性和完整性非常重要。较高的测序深度可以提高检测低表达基因或罕见变异的几率,但同时也增加了测序成本。相反,较低的测序深度可能导致重要生物学信号丢失,因为一些低丰度的转录本或变异可能没有被检测到。
-
在RNA-seq数据分析中,测序深度是评估样本表达量时的一个重要因素,因为它可以影响对基因表达水平的准确估计。在进行不同样本间的表达量比较时,通常需要确保样本之间具有相似的测序深度,以避免因测序深度差异而造成的偏差。
-
越长的基因会有更多的reads比对到上面
RPKM的计算流程
form:25. RPKM FPKM and TPM Clearly Explained_480p_哔哩哔哩_bilibili
-
首先根据测序深度来scale,想象现将表达量除以总reads数,因为大多数软件都能自动计算,这里就不放具体的计算公式,仅作理解
-
除以基因长度,这样归一后就可以有一个规范的可比较的基因的表达量
细心的小伙伴,可能会想到:基因表达不是还会有可变剪切吗?这些方法粗暴地直接计算全长转录本的表达量,似乎忽略了这个过程?
当然,我们目前对于不同转录本的功能了解有限,目前最主流RNA-seq的分析就是基于全场转录本的。
感兴趣的小伙伴可以点个关注,我后面更新新的关于识别不同转录本的分析流程。
RPKM和FPKM有什么区别?
-
RPKM主要用于单端测序(single-end sequencing)数据,即每个转录本只产生一个读段(read)。
-
FPKM主要用于双端测序(paired-end sequencing)数据,这种测序方式会产生成对的读段,每对读段通常来自同一转录本的同一片段(fragment)。
FPKM的计算和RPKM非常类似,使用哪一个却决于使用的测序类型
TPM流程
-
首先根据基因长度归一(也就是除以基因长度)
-
再根据总深度归一
是不是看着很熟悉?和RPKM的流程反了一下,但是这么操作有比较深的影响
相比较于RPKM,TPM的表达量在归一之后,每一个重复有着相同的总表达量
作为一种归一方法,TPM可以将结果标准化为比值(这个基因表达量占单个sample的总表达量的比值),被认为是更加准确的归一方法。
但说是这么说,具体选择哪一种方法,还是要参考一下本领域其他文献是怎么操作的。