宏基因组支架构建中重复序列的更好识别
1. 重复序列的定义与现有方法
在宏基因组组装中,准确识别重复序列是一个关键挑战。J. Ghurye 和 M. Pop 提出将图中导致不一致的节点定义为基因组重复序列,这种定义与覆盖深度无关。例如,高覆盖度但未使图结构“混乱”的重叠群不会影响组装算法,而那些干扰组装的重叠群,无论是否能明确标记为“高覆盖度”,都需要被去除。
之前,已经提出了基于介数中心性的重复序列操作定义,该方法在 Bambus 2 支架构建器中实现,也是 MetAMOS 宏基因组组装管道的关键组成部分。不过,完整实现介数中心性需要计算所有节点对之间的最短路径,这对于典型的宏基因组数据集来说计算量过大。为克服这一限制,可以使用近似介数中心性算法在不牺牲准确性的前提下显著提高速度。
2. 相关工作
- 支架构建中的重复序列检测 :支架构建是利用配对读段的连接信息对预组装的重叠群进行定向和排序,以重建基因组。这个问题被证明是 NP 难的,现有各种支架构建方法都基于不同的启发式策略来获得近似解,但在处理来自基因组重复区域的重叠群时都面临困难。常见策略是在支架构建过程之前识别并移除重复序列,然后在重叠群正确排序和定向后再重新引入。大多数现有支架构建器使用覆盖深度信息来将重叠群分类为重复序列,例如 Opera 和 SOPRA 分别过滤掉覆盖度为平均覆盖度 1.5 倍和 2.5 倍以上的重叠群,MIP 支架构建器使用高覆盖度(大于平均覆盖度 2.5 倍)和高节点度(≥50)来确定重复序列,而 Bambus 2 则使用介数中心性和全局覆盖信息来查找重复序列。
- 介数中心性
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



