24、宏基因组支架构建中重复序列的更好识别

宏基因组支架构建中重复序列的更好识别

1. 重复序列的定义与现有方法

在宏基因组组装中,准确识别重复序列是一个关键挑战。J. Ghurye 和 M. Pop 提出将图中导致不一致的节点定义为基因组重复序列,这种定义与覆盖深度无关。例如,高覆盖度但未使图结构“混乱”的重叠群不会影响组装算法,而那些干扰组装的重叠群,无论是否能明确标记为“高覆盖度”,都需要被去除。

之前,已经提出了基于介数中心性的重复序列操作定义,该方法在 Bambus 2 支架构建器中实现,也是 MetAMOS 宏基因组组装管道的关键组成部分。不过,完整实现介数中心性需要计算所有节点对之间的最短路径,这对于典型的宏基因组数据集来说计算量过大。为克服这一限制,可以使用近似介数中心性算法在不牺牲准确性的前提下显著提高速度。

2. 相关工作
  • 支架构建中的重复序列检测 :支架构建是利用配对读段的连接信息对预组装的重叠群进行定向和排序,以重建基因组。这个问题被证明是 NP 难的,现有各种支架构建方法都基于不同的启发式策略来获得近似解,但在处理来自基因组重复区域的重叠群时都面临困难。常见策略是在支架构建过程之前识别并移除重复序列,然后在重叠群正确排序和定向后再重新引入。大多数现有支架构建器使用覆盖深度信息来将重叠群分类为重复序列,例如 Opera 和 SOPRA 分别过滤掉覆盖度为平均覆盖度 1.5 倍和 2.5 倍以上的重叠群,MIP 支架构建器使用高覆盖度(大于平均覆盖度 2.5 倍)和高节点度(≥50)来确定重复序列,而 Bambus 2 则使用介数中心性和全局覆盖信息来查找重复序列。
  • 介数中心性
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值