从metaWRAP quant_bins计算模块理解宏基因组分箱bin的丰度计算

背景

在进行扩增子分析时,我们拿到的最关键的一个中间数据就是OTU/ASV表,在这个矩阵中,我们能获得我们的分析对象(OTU/ASV)在样本间的分布规律,并通过微生物群落的结构在样本之间的差异来解决一系列的科学问题。其中,我们常常可以通过OTU/ASV在不同样本间的共现关系得到它们之间的相关性关系。

在WGS支持下的宏基因组测序分析,通过组装、分箱等步骤可以获得metagenome assembled genomes(MAGs),每一个MAG常被认作一个单菌,我们选取高质量(完整度高、污染率低)的MAG可以进行很多分析,其中也包括不同的MAG的共现或相关性规律的探寻,为此,需要研究一种MAG(bin)的丰度计算方法。

用于宏基因组数据分箱的metaWRAP pipeline在分箱后提供了计算相对丰度的模块quant_bins,我也试过一次,不过一直还对这个里面给出来的结果有一些疑问。这个模块使用的软件是Salmon,一般来说在转录组定量分析中经常使用。为了记录这一部分的计算方法,写一篇学习笔记以供和大家交流,可能有不对的地方可以留言指出,一起讨论。

从RNA-seq常用定量指标聊起

RNA-seq:Read Count与定量

RNA-seq(转录组测序技术)常用于通过对各种RNA(如mRNA、小型RNA等)定量进而对基因表达水平或差异表达等进行具体的分析,这一部分我没有过多的研究,不细说。主要说一下关于定量方法的问题。

我们回到OTU表的计算,实际上常见的基于NGS的扩增子分析得到的OTU的表中的数据就是Read Count,即测到的序列(Read)我将它分到哪个OTU,该OTU在该样本下的值就+1。可以这么做的前提是,每一条Read都能被assign到单独的一个分析单元(即Operational Taxonomic Units)。为了进行样本间的比较与统计检验,我们通常需要对OTU表进行标准化,这种标准化是按照样本测序深度进行的,也就是说我需要保证样本与样本之间的总Read Count是一致的,这样其比较才是一致的,这非常重要。这一步通常是通过稀释化方法(Rarefaction)与按标准重抽(Resample by Standard)进行的。

那么,在RNA-seq或者在MAG的定量中,可以直接使用Read Count进行操作吗?一般来说,需要思考下面两个问题&#x

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EmmettPeng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值