生物序列组装与比对技术解析
1. 序列比对工具的并行化
在生物计算领域,通过将未知序列与多个已知序列进行比较,可以预测未知序列的二级和三级结构。同时,多序列比对(MSA)是使用系统发育方法构建系统发育树进行分子进化分析的初步步骤。
为了提高生物计算的效率,我们对最常用的序列比对工具进行了并行化处理。对于成对序列比对,我们并行化了Smith - Waterman算法;对于多序列比对,我们并行化了Clustal W工具。这些并行化操作不仅加快了生物计算的速度,还通过利用我们开发的并行计算技术降低了整体内存需求。
2. 大规模序列组装
2.1 相关研究
序列组装的目的是将从DNA序列中破碎的片段恢复并组装成原始序列。目前,最广泛使用的破碎DNA序列的方法是全基因组鸟枪法(WGS),它比其他方法更便宜、更快捷。WGS将基因组破碎成许多不同大小的片段,破碎方式有多种,例如物理摇晃DNA和使用限制性酶切割。
下面通过一个简单的例子来说明WGS的基本原理:
- 基因组:ATGCGTAGCTGTAGTGATCGAGGTCCAAGTAGCTGT
- 第一份拷贝的读取片段:ATGCGTAG, CTGTAGTG, ATCGAGGT, CCAAGTAG
- 第二份拷贝的读取片段:GTAGCTGT, AGTGATCG, AGGTCCAA, GTAGCTGT
这个例子是一个简单理想的全基因组鸟枪法情况,只有两份基因组拷贝,所有读取片段大小相同,没有测序错误,所有核酸都已被识别。但仅从一份拷贝的读取片段无法组装成原始基因组,因为缺乏它们相对位置的信息,即“上下文”。因此,至少需要两份基因组拷贝
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



