转录组表达量的常规标准化方法(FPKM、RPKM、TPM)| 生信笔记09

上期我们讲完了转录组的基本原理、实验设计和上游分析,在开始差异基因分析之前,我们先来了解一下常见的RNA-seq的定量方式

主要的标准化方式为:

  • RPKM(Reads Per Kilobase of transcript per Million mapped reads)

  • FPKM(Fragments Per Kilobase of transcript per Million mapped fragments)

  • TPM(Transcripts Per Million)

为什么要进行标准化?

  • 在测序中,覆盖度往往不同,组与组之间的总表达量往往差异巨大::在RNA测序(RNA-seq)和基因组测序中,测序深度是指在整个基因组或转录组中,每个碱基被测序的平均次数。

  • 测序深度对于确保测序数据的准确性和完整性非常重要。较高的测序深度可以提高检测低表达基因或罕见变异的几率,但同时也增加了测序成本。相反,较低的测序深度可能导致重要生物学信号丢失,因为一些低丰度的转录本或变异可能没有被检测到。

  • 在RNA-seq数据分析中,测序深度是评估样本表达量时的一个重要因素,因为它可以影响对基因表达水平的准确估计。在进行不同样本间的表达量比较时,通常需要确保样本之间具有相似的测序深度,以避免因测序深度差异而造成的偏差。

  • 越长的基因会有更多的reads比对到上面

RPKM的计算流程


form:25. RPKM FPKM and TPM Clearly Explained_480p_哔哩哔哩_bilibili

  1. 首先根据测序深度来scale,想象现将表达量除以总reads数,因为大多数软件都能自动计算,这里就不放具体的计算公式,仅作理解

  2. 除以基因长度,这样归一后就可以有一个规范的可比较的基因的表达量


细心的小伙伴,可能会想到:基因表达不是还会有可变剪切吗?这些方法粗暴地直接计算全长转录本的表达量,似乎忽略了这个过程?

当然,我们目前对于不同转录本的功能了解有限,目前最主流RNA-seq的分析就是基于全场转录本的。

感兴趣的小伙伴可以点个关注,我后面更新新的关于识别不同转录本的分析流程。

RPKM和FPKM有什么区别?

  • RPKM主要用于单端测序(single-end sequencing)数据,即每个转录本只产生一个读段(read)。

  • FPKM主要用于双端测序(paired-end sequencing)数据,这种测序方式会产生成对的读段,每对读段通常来自同一转录本的同一片段(fragment)。

FPKM的计算和RPKM非常类似,使用哪一个却决于使用的测序类型

TPM流程

  1. 首先根据基因长度归一(也就是除以基因长度)

  2. 再根据总深度归一

是不是看着很熟悉?和RPKM的流程反了一下,但是这么操作有比较深的影响


相比较于RPKM,TPM的表达量在归一之后,每一个重复有着相同的总表达量

作为一种归一方法,TPM可以将结果标准化为比值(这个基因表达量占单个sample的总表达量的比值),被认为是更加准确的归一方法。


但说是这么说,具体选择哪一种方法,还是要参考一下本领域其他文献是怎么操作的。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值