基因相似性度量的相关性及特征选择研究
在生物学研究中,基因相似性度量以及特征选择是非常重要的研究内容。基因相似性度量有助于我们理解基因之间的关系,而特征选择则能帮助我们从大量基因数据中提取关键信息。下面将详细介绍相关的度量方法、数据集分析以及研究结果。
1. GO术语相似性度量
在评估GO(Gene Ontology)术语相似性时,有四种常用的度量方法。其中前三种属于语义度量,最后一种基于基因本体图中两个GO术语之间的距离。
- 语义GO术语相似性度量
- 语义度量基于本体术语 $a \in A$ 的信息内容 $\tau(a)$ 的概念,其计算公式为:
- $\tau(a) = -\ln(P(a))$
其中,$P(a)$ 是术语 $a$ 的注释数量与分析基因数量的比率。
- Resnik提出的最简单的相似性度量方法,仅考虑比较术语 $a_i$ 和 $a_j$ 的共同祖先的信息内容 $\tau_{ca}(a_i,a_j)$,公式如下:
- $s^{(R)} A (a_i,a_j) = \tau {ca}(a_i,a_j)$
- Jiang - Conrath提出的更复杂的方法,术语距离定义为:
- $d^{(JC)} A (a_i,a_j) = \tau(a_i)+ \tau(a_j)-2\tau {ca}(a_i,a_j)$
- Lin提出的基于信息概念的最后一种度量方法为:
- $s^{(L)} A (a_i,a_j) = \frac{2\tau {ca}(a_i,a_j)}{\tau(a_i)+