测序深度、测序覆盖度以及RPKM-FPKM-TPM-CPM

1. 测序深度(Sequencing Depth, DP)

测序得到的总碱基数(bp)与所测物种基因组大小的比值,其是评价测序量的重要指标之一,一般用多少X表示。一般随着测序深度的提高,测序产生的错误率或假阳性结果会随之下降

例如测序产生了10000条读段(reads),每条reads的长度为150bp,所测物种的基因组大小为1000000bp (1M),那么测序深度为10000 * 150 / 1000000=1.5X。

2. 测序覆盖度(Sequencing Coverage)

测序数据匹配到参考基因组上后,能够覆盖基因组的区域比率。因为基因组有些区域重复序列较复杂或测序难以捕获到,这些区域可能就不会被测序读段所覆盖

例如测序产生了10000条读段(reads),每条reads的长度为150bp,所测物种的基因组大小为1000000bp (1M),测序读段匹配到参考基因组后能够覆盖990000bp的参考基因组,那么测序覆盖度就为990000 / 1000000 = 99%。

3. RPKM(Reads Per Kilobase of exon model per Million mapped reads)和FPKM(Fragments Per Kilobase of exon model per Million mapped fragments)

统计比对到基因上的reads即为的counts即为测序原始表达矩阵(rawdata)

由于存在不同样本的测序深度不同和不同基因的长度不同, 直接用counts比较将没有意义,因此需要进行标准化才能进行比较

(1)对于不同样本的测序深度:例如sample1测序深度为5X,sample2测序深度为15,自然sample2的基因counts都比sample1的高很多。如若消除,计算比例即可。即针对每一样本,计算每一个基因counts相对于整体测序深度的比例

(2)对于不同基因的长度:例如geneA长度为1KB,geneB长度为10KB;那么geneB的counts数总体都大于geneA。若相比较,则计算基因平均每KB的表达量即可。

RPKM代表每千个碱基的转录每百万映射读取读数;
FPKM代表每千个碱基的转录每百万映射读取的片段

RPKM:是基于单端测序数据,在计算时主要关注的是单个 read 与基因外显子区域的比对情况。单端测序是指从 DNA 或 RNA 片段的一端进行测序。例如,在一个简单的转录组测序实验中,只从 mRNA 片段的一端产生测序 reads。这些 reads 的数量用于 RPKM 的计算。在这种情况下,每个 read 被独立计数来衡量基因表达量。

FPKM:源于双端测序数据,在计算时需要同时考虑一对 reads(一个片段)的比对情况。如果一对reads 中的一个 read 比对到基因外显子区域,而另一个 read 没有正确比对(例如比对到基因间区或者其他不合适的位置),这个片段可能不会被计入有效的片段数量用于 FPKM 计算。双端测序是对 DNA 或 RNA 片段的两端进行测序,产生一对 reads(称为 paired - reads),这一对 reads 代表一个测序片段(fragment)。在计算 FPKM 时,是以这些片段为单位进行计数的。例如,对于一个长度为 500bp 的 DNA 片段,双端测序后会得到两个 reads,这两个 reads 组合在一起作为一个片段来统计,更能准确地反映原始片段的信息。

3.1 RPKM计算

RPKM计算公式: RPKM = total exon reads / (mapped reads (Millions) * exon length (KB))

RPKM=比对到某一基因的reads数先除以比对到参考基因组的总reads数,再除以基因外显子长度;基因的外显子长度信息可以从基因组注释文件(如 GTF 或 GFF 文件)中获取,将一个基因所有外显子的长度相加,并且换算为千碱基(kb)的单位。例如,如果一个基因有 3 个外显子,长度分别为 100bp、200bp 和 300bp,那么exon length = (100 + 200 + 300) / 1000 = 0.6kb。

3.2 FPKM计算

FPKM计算公式:FPKM = total exon fragments / (mapped fragments (Millions) * exon length (KB))

FPKM=比对到某基因的片段数先除以比对到参考基因组的总片段数, 再除以该基因外显子长度之和(单位为 kb),与RPKM计算方法类似。在双端测序中,一个 DNA 或 RNA 片段会产生两个 reads(一对 reads),这一对 reads 代表一个完整的片段。

RPKM-FPKM

4。 TPM(Transcripts Per Million)

每百万转录本,一种基因表达定量的单位,用于衡量在给定的样本中,每个基因转录本的相对丰度

4.1 TMP计算方法

TPM的计算方法与RPKM类似,同样的对不同的基因长度和测序深度样本进行标准化;即对于原始测序数据,先标准化基因长度,然后再标准化测序深度

计算 TPM 时,首先要统计每个基因转录本的数量,然后将其除以所有基因转录本数量之和,得到该基因转录本的比例,再乘以一百万

目的是为了在不同样本之间进行基因表达水平的比较,消除基因长度和测序深度差异对基因表达定量的影响

例如,在转录组测序数据分析中,TPM 可以用来比较不同组织、不同处理条件下基因表达的变化情况。假设在一个肿瘤组织和一个正常组织的 RNA - Seq 样本中,通过计算 TPM 可以准确地知道某个特定肿瘤相关基因在肿瘤组织中的表达量相对于正常组织是升高还是降低,并且这种比较是相对公正的,不受测序深度和基因长度的干扰。

5. CPM(Counts Per Million)

百万计数,用于衡量基因表达水平的一种单位,主要基于测序数据中的 reads(读段)计数来计算
只对测序文库(每个样本总reads数)标准化,而不对长度进行标准化。因为差异分析往往是同一基因在两组或多组样本量的差异,因此不必在计算单位长度基因的表达量。

5.1 CPM计算方法

CPM 时先统计某个基因对应的测序 reads 数量,然后除以总的测序 reads 数量,再乘以一百万。CPM 在一定程度上反映了基因的表达量,但与 TPM 不同的是,它没有考虑基因长度的因素在实际应用中,CPM 常用于初步评估测序数据中基因的表达情况

例如,在高通量测序实验的早期质量评估阶段,通过计算 CPM 可以快速了解每个基因被测序到的次数相对情况。如果一个基因的 CPM 值很低,可能意味着该基因在样本中的表达量较低,或者是测序过程中对该基因的覆盖度不够。但在比较不同长度基因的表达量时,CPM 可能会产生偏差,因为较长的基因更容易被测序到更多的 reads,所以单纯用 CPM 比较不同基因的表达量不够准确。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值