自动化验证DNA超级重叠群组装的方法与性能
在基因组研究中,准确的基因组组装至关重要。本文将介绍一种用于自动化验证DNA超级重叠群组装的方法,包括其原理、算法流程以及性能评估。
1. 大插入克隆在基因组中的分布
在基因组组装过程中,大插入克隆(LIC)如BAC和fosmid等在构建基因组支架方面发挥着重要作用。已完成测序的人类基因组及其他基因组通常会采用多种方法验证其正确性,而组装支架可能存在问题的一个早期信号来自其覆盖深度。
测序中心常用的方法是检测覆盖度与预期值相差超过3.5个标准差(σ)的区域。虽然覆盖度偏离超过3.5σ(发生概率小于0.0005)几乎可以确定存在错误,但该标准可能会遗漏一些隐藏较深的问题。更合理的界限可能是99%或95%的显著性水平(约为均值的两个标准差),不过这样筛选出的克隆数量会非常大。
以人类基因组计划(HGP)后期为例,怀特黑德研究所基因组研究中心(WICGR)负责完成人类染色体8、11p、15、17和18q的组装。他们通过实验室杂交、将完成的序列与图谱进行比较以及检查BAC末端读取的位置来选择克隆并验证组装的正确性。由于只有一部分人类BAC被实际测序,未测序克隆末端在正确距离和方向上的一致放置提供了额外的虚拟覆盖,有助于确保组装的正确性。
然而,TIGR提供的大量BAC末端读取(成对和不成对)由于人类基因组草案的高度重复结构以及TIGR使用了屏蔽已知重复序列的草案,未能映射到人类基因组草案组装上。WICGR小组使用未屏蔽的序列,成功放置了约25%更多的读取,并确保了其负责的基因组部分的LIC覆盖度接近15倍,不包括来自fosmid文库的额外8倍覆盖。
预期每个DNA碱基应由相对稳定数量的
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



