跨宏基因组检索基因组的稀疏非负矩阵分解
1. 引言
宏基因组学借助高通量测序技术原位提取微生物群落的基因组信息,在微生物生态学、人类医学等多个领域拓展了我们的认知。宏基因组数据集包含数十亿个无序的小基因组片段,通常只有几百个碱基对,相较于典型的细菌基因组(约$10^6$个碱基对)非常小。由于序列是随机采样的,往往导致组装高度碎片化。
为了解决将来自同一基因组的读数分组的“分箱”问题,主要有两种策略:
- 基于从头组装的分箱策略 :以从头组装作为预处理步骤,在重叠群水平进行分箱。优点是减少了待聚类对象的数量,并能获得与较长序列相关的更稳健的组成信号。然而,对宏基因组数据集进行从头组装计算量巨大,尤其是在计算机内存方面,还会产生伪影并丢弃大量原始数据。
- 基于未组装读数的分箱策略 :直接在(未组装的)读数水平进行分箱,然后对得到的低复杂度分区进行有针对性的组装。虽然前期需要处理更多的对象,但这种方法有可能避免从头组装的重要缺点,例如对低丰度序列的偏差。
本文将介绍一种“先分箱后组装”的方法,通过在线稀疏非负矩阵分解将k - 元组丰度协变信号分解为潜在基因组,实现读数水平的分箱。
2. 相关工作
2.1 唯一k - 元组的聚类
许多分箱方法利用唯一k - 元组(长度为k的子串)的出现情况。当k足够长(例如k > 20)时,可以假设大多数k - 元组是基因组特异性的。因此,解决分箱问题等同于对唯一k - 元组进行聚类。Lander - Waterman模型假设随机测序会导致核苷酸覆盖率呈泊松分布,为对给定基因组混合物中
超级会员免费看
订阅专栏 解锁全文
1033

被折叠的 条评论
为什么被折叠?



