基于参考出现的近似基因簇高效计算
1. 引言
全基因组在基因顺序层面的比较已成为比较基因组学的重要领域。基因组不仅在核苷酸序列层面进化,还会通过大规模重排操作(如倒位和转座)以及基因内容的变化而进化。通常将基因组建模为整数串,属于同一基因家族的基因用相同整数表示。
如果没有选择压力作用于全基因组进化,基因顺序和基因内容会随时间随机化。但实际上,物种间整体基因顺序保守性较低,不过存在一些小的、保守性良好的片段,即基因簇。这些局部偏离基因组随机化的现象能为功能分析提供重要信息。
然而,基因簇的识别具有挑战性,因为不同物种的保守模式差异很大。由于微重排,基因顺序在簇出现时会有所不同;由于基因插入和丢失,簇出现可能会被不属于该簇的基因打断,且只包含簇中基因的一部分。为应对这些变化,近年来提出了不同的近似基因簇模型:
- 共同区间模型 :允许簇出现时基因顺序可变和存在多个基因拷贝,但不允许所含基因集合有差异。该模型下基因簇的计算时间复杂度相对于最大基因组长度 n 是多项式的。
- 最大间隙簇模型 :允许每个簇出现时有任意数量的间隙,每个间隙长度固定,可填充间断基因。识别最大间隙簇的渐近复杂度随比较基因组数量呈指数增长,但实际运行时间是可行的。该模型对基因丢失的处理是,将丢失的基因在其仍存在的出现中视为间断基因,因此代表基因簇的基因集合会缩减为所有簇出现中都存在的最小共识基因集合,且可能需要人为增加间隙大小以跨越看似间断的基因。
- 基于集合距离的模型 :如中位数基因簇,将共同区间的概念扩展到基因内容的近似保守。基本思想是定义一个共识基因集与其近似出
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



