系统发育估计与距离方法详解
1. 引言
重建生物物种间的进化关系是生物学中最古老的问题之一。尽管在过去二十年取得了一些进展,但仍存在诸多困难,如计算难题、模型参数复杂、生物数据历史差异、术语混淆等。所有系统发育估计方法都有三个关键特征:衡量树拓扑充分性的数值标准、计算分支长度的公式以及探索树空间的算法。在 R 语言中,距离法和最大似然法取得了显著进展。
2. 距离方法概述
距离方法历史悠久,对于大量数据通常易于处理。给定一个系统发育树 T,它能定义一个唯一的成对距离矩阵 Δ;但对于给定的距离矩阵,根据不同标准可定义多个树。距离法的核心问题是为给定的距离矩阵找到合适的树,其驱动思想是距离矩阵中的距离能反映观测值的相对接近程度,用于估计树的拓扑结构和分支长度。主要有两种策略:聚合最相关的观测值或拆分最远的观测集。
3. 计算距离
3.1 距离概念差异
统计距离可视为超空间中两个观测值之间的“物理”或几何距离,而进化距离是对两个单位(个体、种群或物种)之间差异的估计,通常以进化变化量(如突变数量)来衡量。
3.2 R 中计算距离的函数
R 中有不同包提供了各种计算距离的函数,具体如下表所示:
| 包 | 函数 | 数据类型 |
| — | — | — |
| stats | dist | 连续或二进制 |
| stats | cophenetic | 类为 “hclust” 或 “dendrogram” 的对象 |
| cluster | daisy | 连续和/或离散 |
| ade4 | dist.binar
超级会员免费看
订阅专栏 解锁全文
28

被折叠的 条评论
为什么被折叠?



