从头基因组组装实用指南
1. 基础概念
在基因组学领域,有一些关键术语需要理解。“De novo”是一个拉丁语表达,意为“从头开始”,即不依赖参考序列进行基因组组装。“碱基对(Base pair)”是DNA序列中互补核苷酸的一对,常用于衡量基因组大小。“读段(Read)”是测序产生的代表DNA序列的字母串。“重叠群(Contig)”是连续序列的缩写,“支架(Scaffold)”则是由重叠群连接而成的“超级重叠群”,可能包含间隙。“测序深度(Sequencing depth)”是测序产生的所有读段总长度与估计基因组长度的比值,也称为覆盖深度。“N50”是衡量基因组组装连续性的指标,指的是累计长度达到基因组大小50%时所需的最短重叠群/支架长度,该指标还可扩展到其他百分比,如N75或N90。“GC含量”是DNA分子中鸟嘌呤或胞嘧啶的氮碱基百分比。“直系同源基因(Ortholog)”是不同物种中具有共同进化祖先的基因。
基因组组装有两种常见的算法。“De Bruijn组装器”通过建模读段中精确k - 元组之间的关系来进行组装,图中的节点代表k - 元组,边代表相邻k - 元组重叠k - 1个字母,通过追踪图中最一致的路径完成组装。“重叠布局共识(OLC)组装器”则先识别所有充分重叠的读段对,然后将这些信息组织成图,每个读段对应一个节点,重叠的读段对之间有边相连,通过推断可能路径上所有边的信息生成重叠群。
2. 测序技术与文库类型
当前的测序技术通常需要先对DNA片段进行大小选择,因此一个生物体的完整DNA序列无法在一次运行中全部读取。例如,PacBio Sequel作为成熟的第三代长读长测序仪,平均读长为10,000 - 14,000 bp,而目前已知最小的细菌
超级会员免费看
订阅专栏 解锁全文
325

被折叠的 条评论
为什么被折叠?



