转录组表达量的常规标准化方法(FPKM、RPKM、TPM)| 生信笔记09

上期我们讲完了转录组的基本原理、实验设计和上游分析,在开始差异基因分析之前,我们先来了解一下常见的RNA-seq的定量方式

主要的标准化方式为:

  • RPKM(Reads Per Kilobase of transcript per Million mapped reads)

  • FPKM(Fragments Per Kilobase of transcript per Million mapped fragments)

  • TPM(Transcripts Per Million)

为什么要进行标准化?

  • 在测序中,覆盖度往往不同,组与组之间的总表达量往往差异巨大::在RNA测序(RNA-seq)和基因组测序中,测序深度是指在整个基因组或转录组中,每个碱基被测序的平均次数。

  • 测序深度对于确保测序数据的准确性和完整性非常重要。较高的测序深度可以提高检测低表达基因或罕见变异的几率,但同时也增加了测序成本。相反,较低的测序深度可能导致重要生物学信号丢失,因为一些低丰度的转录本或变异可能没有被检测到。

  • 在RNA-seq数据分析中,测序深度是评估样本表达量时的一个重要因素,因为它可以影响对基因表达水平的准确估计。在进行不同样本间的表达量比较时,通常需要确保样本之间具有相似的测序深度,以避免因测序深度差异而造成的偏差。

  • 越长的基因会有更多的reads比对到上面

RPKM的计算流程


form:25. RPKM FPKM and TPM Clearly Explained_480p_哔哩哔哩_bilibili

  1. 首先根据测序深度来scale,想象现将表达量除以总reads数,因为大多数软件都能自动计算,这里就不放具体的计算公式,仅作理解

  2. 除以基因长度,这样归一后就可以有一个规范的可比较的基因的表达量


细心的小伙伴,可能会想到:基因表达不是还会有可变剪切吗?这些方法粗暴地直接计算全长转录本的表达量,似乎忽略了这个过程?

当然,我们目前对于不同转录本的功能了解有限,目前最主流RNA-seq的分析就是基于全场转录本的。

感兴趣的小伙伴可以点个关注,我后面更新新的关于识别不同转录本的分析流程。

RPKM和FPKM有什么区别?

  • RPKM主要用于单端测序(single-end sequencing)数据,即每个转录本只产生一个读段(read)。

  • FPKM主要用于双端测序(paired-end sequencing)数据,这种测序方式会产生成对的读段,每对读段通常来自同一转录本的同一片段(fragment)。

FPKM的计算和RPKM非常类似,使用哪一个却决于使用的测序类型

TPM流程

  1. 首先根据基因长度归一(也就是除以基因长度)

  2. 再根据总深度归一

是不是看着很熟悉?和RPKM的流程反了一下,但是这么操作有比较深的影响


相比较于RPKM,TPM的表达量在归一之后,每一个重复有着相同的总表达量

作为一种归一方法,TPM可以将结果标准化为比值(这个基因表达量占单个sample的总表达量的比值),被认为是更加准确的归一方法。


但说是这么说,具体选择哪一种方法,还是要参考一下本领域其他文献是怎么操作的。

### 使用Galaxy息学平台进行转录组测序数据分析 #### 准备工作 为了在Galaxy平台上执行转录组测序数据处理,需先上传FASTQ格式的RNA-seq原始读取文件到服务器上。这可以通过点击主页中的“Upload File”按钮来完成[^1]。 #### 参考基因组索引构建 当样本序列被成功导入之后,下一步就是创建用于比对目的的参考基因组索引。通常情况下会选用Bowtie2或Hisat2这样的工具,在Galaxy环境中它们已经被预先配置好并可以直接调用。选择相应的应用程序模块后按照提示输入参数即可建立适合特定物种和版本的映射数据库[^2]。 #### 序列比对 有了准备好的参比材料以后就可以着手做实际的reads定位操作了。推荐采用STAR这类高效能软件来进行此环节的工作;它能够快速而精准地把来自不同条件下的mRNA片段分配给对应的染色体位置,并输出SAM/BAM类型的中间成果文档以便后续分析之用[^3]。 #### 表达估算 对于已经过质控制并且完成了与参照模板匹配过程后的样品集合来说,现在可以计算各个特征区域内的表达水平了。常用的度方法FPKM (Fragments Per Kilobase Million),TPM (Transcripts per million)等指标体系。在这个阶段可借助StringTie或者featureCounts等功能组件实现自动化统计作业流程[^4]。 #### 差异表达检测 最后一步涉及识别那些在实验设定条件下表现出显著变化趋势的目标基因列表。DESeq2是一个非常流行的选择之一,因为它不仅考虑到了技术重复间的随机波动因素而且还引入了负二项分布模型来更好地描述物学意义上的离散特性。通过设置对照组对比关系以及调整p-value阈值等一系列选项最终筛选出具有潜在功能意义的关键调控因子[^5]。 ```bash # Example command line usage of tools mentioned above within Galaxy environment $ bowtie2-build reference_genome.fa ref_index --threads 8 # Build index with Bowtie2 $ STAR --runThreadN 8 --genomeDir ./ref_index/ ... # Align reads against genome using STAR $ stringtie -e -B -G annotation.gtf aligned_reads.bam # Estimate expression levels via StringTie $ DESeq2::results(dds, contrast=c("condition","treated","control")) # Perform differential expression test by DESeq2 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值