基因组序列组装质量控制与蛋白质配位数预测研究
基因组序列组装质量控制
在基因组测序工作中,单一的序列组装质量检查方法并非总是最佳选择。测序机构应采用多种方法,以确保数据的准确性。特别是当重复的基因组序列相邻时,除了本文介绍的技术外,分析还应依赖克隆的大小和其末端读取的方向。
有一种算法在灵敏度方面相较于简单的 3.5σ 测试有显著提升,并且能将检查两个标准差异常值的需求减少约 50%。软件标记为可疑的大部分区域,可以相对快速地检查错误率侧翼的峰值,从而将需要更详细检查的严重可疑区域减少到少数几个。
华盛顿大学基因组测序中心正在开发一款名为 SEMBLANCE 的新工具。该软件旨在全面评估全基因组序列组装的质量,评估物理图谱对组装质量的影响,并比较不同覆盖冗余水平下的组装结果。目前,SEMBLANCE 已应用于低覆盖率的黑猩猩全基因组组装分析,并与未用于组装的黑猩猩 BAC 克隆进行了比较。由于全基因组策略通常包含相当比例的 LIC(BAC 和黏粒),本文描述的算法作为 SEMBLANCE 等质量控制工具包的一部分将非常有用。
长期以来,与限制酶消化相比,DNA 剪切一直是构建小测序克隆的首选方法。最近,基因组文库构建工作也开始将这项技术应用于黏粒。一旦组装完全基于剪切克隆进行,本文描述的算法可能会失去其大部分相关性。因为剪切克隆的边界与任何特定的序列基序无关,并且理论上在整个基因组中均匀分布,所以可以预期 L 会是平坦的,并且没有特定的“特征”限制曲线与超级重叠群相关联。然而,许多已经组装好的基因组仍需要完善,有些甚至需要部分重新组装,而且对于尚未完全测序的基因组,存在许多 LIC 文库。因此,预计在不久的将来,至少部分基因组组装将使用适合该算法分析的克隆,在
超级会员免费看
订阅专栏 解锁全文
1381

被折叠的 条评论
为什么被折叠?



