背景
在进行扩增子分析时,我们拿到的最关键的一个中间数据就是OTU/ASV表,在这个矩阵中,我们能获得我们的分析对象(OTU/ASV)在样本间的分布规律,并通过微生物群落的结构在样本之间的差异来解决一系列的科学问题。其中,我们常常可以通过OTU/ASV在不同样本间的共现关系得到它们之间的相关性关系。
在WGS支持下的宏基因组测序分析,通过组装、分箱等步骤可以获得metagenome assembled genomes(MAGs),每一个MAG常被认作一个单菌,我们选取高质量(完整度高、污染率低)的MAG可以进行很多分析,其中也包括不同的MAG的共现或相关性规律的探寻,为此,需要研究一种MAG(bin)的丰度计算方法。
用于宏基因组数据分箱的metaWRAP pipeline在分箱后提供了计算相对丰度的模块quant_bins
,我也试过一次,不过一直还对这个里面给出来的结果有一些疑问。这个模块使用的软件是Salmon,一般来说在转录组定量分析中经常使用。为了记录这一部分的计算方法,写一篇学习笔记以供和大家交流,可能有不对的地方可以留言指出,一起讨论。
从RNA-seq常用定量指标聊起
RNA-seq:Read Count与定量
RNA-seq(转录组测序技术)常用于通过对各种RNA(如mRNA、小型RNA等)定量进而对基因表达水平或差异表达等进行具体的分析,这一部分我没有过多的研究,不细说。主要说一下关于定量方法的问题。
我们回到OTU表的计算,实际上常见的基于NGS的扩增子分析得到的OTU的表中的数据就是Read Count,即测到的序列(Read)我将它分到哪个OTU,该OTU在该样本下的值就+1。可以这么做的前提是,每一条Read都能被assign到单独的一个分析单元(即Operational Taxonomic Units)。为了进行样本间的比较与统计检验,我们通常需要对OTU表进行标准化,这种标准化是按照样本测序深度进行的,也就是说我需要保证样本与样本之间的总Read Count是一致的,这样其比较才是一致的,这非常重要。这一步通常是通过稀释化方法(Rarefaction)与按标准重抽(Resample by Standard)进行的。
那么,在RNA-seq或者在MAG的定量中,可以直接使用Read Count进行操作吗?一般来说,需要思考下面两个问题&#x