快速准确的系统发育重建与新型稳健性估计器
1. 引言
在系统发育分析中,非参数自举法已成为评估重建稳健性的标准方法。对于序列数据,经典的自举法由 Felsenstein 提出,通过从多序列比对中有放回地采样列来创建新的比对,即自举复制。每个复制包含相同数量的物种和每物种相同数量的列,但原始比对中的某些列可能会被重复,而其他列可能会被省略。从每个复制中可以使用任何可用的重建技术重建一棵树(自举树),推断树中分支的支持值是包含该分支的自举树的比例。然而,经典自举法不能直接应用于重排数据,因为整个排列(基因组)在排列空间中是一个单一字符。
2. 系统发育重建与准确性测试
2.1 重建方法
我们使用基于距离的邻接法(NJ)进行系统发育重建。给定分类单元之间的成对距离矩阵,NJ 通过以下步骤迭代地连接最接近的一对叶子来重建系统发育(包括内部分支长度):
1. 根据合适的度量选择最接近的一对叶子。
2. 用一个“樱桃”(连接到内部节点的一对叶子)替换这两个叶子。
3. 计算“樱桃”到所有其他叶子的距离。
4. 重复上述步骤,直到只剩下三个叶子。
当距离矩阵是可加的时,NJ 保证能重建真实的树。
2.2 准确性测试
我们通过广泛的模拟研究重建树及其内部分支长度的准确性。具体步骤如下:
1. 生成多个树。
2. 在这些树上模拟进化。
3. 使用叶子排列作为重建方法的输入。
4. 将重建的树与“真实”树进行比较,以测试方法的准确性。
我们使用 Robinson - Foulds(RF)度量来测量推断树的拓扑准
超级会员免费看
订阅专栏 解锁全文
1759

被折叠的 条评论
为什么被折叠?



