RPKM与TPM值的区别

对于RNA-Seq,目前主流还是用RPKM/FPKM来形容一个基因的表达量。有人说TPM更好。

RPKM定义:有一个基因A,它在这个样本的转录组数据中被测序而且mapping到基因组了 5000个的reads,而这个基因A长度是10K,我们总测序文库是50M,所以这个基因A的RPKM值是 5000除以10,再除以50,为10. 就是把基因的reads数量根据基因长度和样本测序文库来标准化(normalization) 。

那么它的TPM值是多少呢? 这个时候这些信息已经不够了,需要知道该样本其它基因的RPKM值是多少,加上如果该样本共有3个基因,另外两个基因的RPKM值是5和35,那么我们的基因A的RPKM值为10,需要换算成TPM值就是 1,000,000 *10/(5+10+35)=200,000,看起来是不是有点大呀,其实主要是因为我们假设的基因太少了,一般个体里面都有两万多个基因的,总和会大大的增加,这样TPM值跟RPKM值差别不会这么恐怖的。

TPM值就是RPKM的百分比!!!

大家肯定想问,TPM的优点是什么呢?很明显,所有基因的TPM值加起来肯定是1M,因为百分比的总和就是1嘛,与样本无关,各个样本都可以保证TPM库是一样的,这样比较更有意义!!!

我这里没有讲FPKM,大家自己搜索学习吧,没什么意思

最后还是贴上公式吧!





### 将GEO数据集中MAS5、RMA、MBCB表达转换为TPM 在生物信息学分析中,不同类型的基因表达量度量单位之间可以相互转换。对于来自GEO数据库的数据集,通常会提供多种标准化后的表达矩阵文件,如MAS5、RMA或MBEI等[^1]。 #### 表达的性质差异 - **MAS5** 是一种基于探针集合信号强度的方法,其结果接近原始荧光强度读数。 - **RMA (Robust Multi-array Average)** 和 **MBEI (Model-Based Expression Index, 即 MBEI/PM-MM)** 都是对多个探针的结果进行了模型化处理得到更稳定的估计[^2]。 这些方法产生的数并不是直接可比较的转录本每百万片段比例(Transcripts Per Million, TPM),因为它们并没有考虑每个样本总测序深度以及各基因长度的影响。 #### 转换流程概述 为了将上述三种形式之一转化为TPM,需要遵循以下原则: - 获取目标物种对应的注释文件,该文件应包含所有可能被检测到mRNA序列及其对应物理位置的信息; - 计算每一个样品总的映射计数; - 使用特定算法调整初始测量得到FPKM/RPKM之后再进一步计算成TPM; 具体实现上可以通过一些工具包来完成此过程,比如Python中的`pyranges`库配合其他辅助模块一起工作。 ```python import pandas as pd from pyensembl import EnsemblRelease def load_expression_data(file_path): df = pd.read_csv(file_path, sep='\t', index_col=0) return df def calculate_tpm(expression_df, gene_lengths): # Normalize by length and then scale to TPM rpkm = expression_df.div(gene_lengths, axis='index') * 1e3 tpm = rpkm.div(rpkm.sum(axis=0), axis='columns') * 1e6 return tpm # Load your data here with appropriate paths expression_values = load_expression_data('path_to_your_file.txt') gene_length_info = ... # Obtain this information through a suitable method or database query tpm_normalized = calculate_tpm(expression_values, gene_length_info) print(tpm_normalized.head()) ``` 需要注意的是,在实际操作过程中还需要额外注意诸如批次效应校正等问题以确保最终获得高质量的数据用于下游分析[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值