评估完整细菌基因组分割的稳健性
1. 引言
自 90 年代末以来,公共数据库中完整细菌基因组的数量呈指数级增长。大量数据的出现催生了新的基于比较的方法,用于在不同尺度上研究细菌基因组的进化,如基因组、操纵子和基因等。基因组比较在许多领域都证明了其价值,包括基因预测、调控区域和功能基序的检测以及新基因组的组装。
在约 500 种拥有完整基因组的细菌物种中,超过 100 种至少有两个已测序的菌株。比较密切相关的基因组有多种方法,其中全基因组 DNA 序列在核苷酸水平上的比对,能同时研究编码和非编码区域。通过比较两个大肠杆菌菌株的完整基因组,发现约 80%的基因组序列高度保守,这部分序列被称为“主链”,而不保守的 DNA 片段则被称为可变片段。这种主链/可变片段的结构被称为细菌基因组的分割或镶嵌结构。
确定和分析这种分割结构对于研究细菌基因组进化的分子机制至关重要。主链片段富含功能性 DNA 基序,可能对应于比较菌株的共同祖先染色体;可变片段可能与菌株特异性、DNA 交换和移动元件有关,可用于研究细菌生理学和致病性等生物学问题。然而,目前大多数全基因组比对方法存在可靠性不足的问题,因此评估从这些方法得到的分割结果的稳健性非常关键。
2. 方法
2.1 分割确定
将细菌基因组分割为主链和可变片段的过程可分为四个步骤:
1. 全基因组序列比对 :通常使用基于锚点的比对器,先识别比较序列之间所有高度保守的区域,将这些区域排序并选择部分作为锚点,将基因组连接在一起,形成一系列高度保守的片段,中间被称为“间隙”的较远片段打断。
2. 间隙的迭代比对 </
超级会员免费看
订阅专栏 解锁全文
1741

被折叠的 条评论
为什么被折叠?



