多重基因复制问题的研究
1. 模型介绍
在计算生物学中,一个基本问题是根据一组(可能相互矛盾的)基因树来确定一组分类单元的(正确)进化拓扑结构。基因树是针对一组分类单元的同源基因家族形成的完整有根二叉树。由于各种原因,同一组分类单元的两个或多个基因树可能并不总是一致。那么问题就来了,如何从给定的基因树中重建这些分类单元的正确物种树。
1.1 现有模型
文献中已经出现了几种模型,其中最著名的可能是 MAST。近期受到广泛关注的一种成本模型是基因复制和丢失模型。该模型的基本思想是通过计算假定的旁系同源基因复制和后续基因丢失的数量,来衡量一组基因树之间的相似性或差异性,从而以进化上有意义的方式解释基因树如何相对于物种树产生。
1.2 相关定义和函数
- 树的表示 :用 (T = (V, E, L)) 表示有根树,其中 (V) 是顶点集,(E) 是边集,(L ⊆ V) 是叶节点标签集。
- 函数定义 :使用函数 (loc_{G,S} : V_G → V_S) 将基因树 (G) 中的每个顶点与物种树 (S) 中的一个顶点关联起来;使用函数 (event_{G,S} : V_G → {dup, spec}) 指示 (G) 中的事件是复制事件还是物种形成事件。
- 函数 (M) 的定义 :
M(G, S): for each u ∈ VG − L, loc(u) = lcaS(u) a
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



