多组学-转录组RNA-seq 中Counts值,RPM,RPKM,FPKM,TPM

本文详细介绍了RNA测序数据分析中的基因表达量化指标,包括Readcounts、RPM、RPKM、FPKM和TPM。Readcounts是基本的计数,RPM标准化了测序深度,RPKM考虑了基因长度,FPKM则针对双端测序进行了优化,而TPM同时考虑了基因长度和测序深度的归一化,更准确地反映基因表达水平。这些方法在转录组学研究中广泛用于比较不同样本间的基因表达差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一个基因区域内read counts数目取决于基因长度测序深度

  • 基因长度影响:同一样本基因越长,随机打断得到的片段越多,该基因被测到概率越大,比对到该基因的reads越多
  • 测序深度影响:不同样本,样本的测序深度越高,同一基因被测到次数越多,比对到该基因的reads越多
Counts

比对到每个基因的reads有多少条,在转录组测序中,称为Count数。每个测序样品的起始RNA量不同,文库量不同,测序数据量不同。

RPM(Reads per million mapped reads)

10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。
请添加图片描述

RPKM(reads per kilobase of transcript per million reads mapped) 单端

每百万reads中来自于某基因每千碱基长度的reads数。RPKM是将map到基因的read数除以map到基因组上的所有read数(以million为单位)与RNA的长度(以KB为单位),RNA-seq中用来表示基因表达量或丰度的方法。
total exon reads:某个样本mapping到特定基因的外显子上的所有的reads
mapped reads (Millions) :某个样本的所有reads总和
exon length(KB):某个基因的长度(外显子的长度的总和,以KB为单位)
请添加图片描述

FPKM(fragments per kilobase of transcript per million reads mapped) 双端

请添加图片描述
比如在一个Illumina的pair-end(双尾)RNA-seq中,一对(两个)reads对应是一个DNA片段。
FPKM只计算两个reads能比对到同一个转录本的fragments数量,而RPKM计算的是可以比对到转录本的reads数量而不管PE的两个reads是否能比对到同一个转录本上。

TPM(Transcripts Per Kilobase of exon model per Million mapped reads)

请添加图片描述
当计算TPM的时候,先对基因长度进行归一化,其次是测序深度的归一化。
请添加图片描述
请添加图片描述
TPM的现实意义是某给定基因的全长转录本出现的次数。


计算

KB <- data$Length / 1000
RPK <- countdata / KB
TPM <- t(t(RPK) / colSums(RPK) * 1000000)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值