蛋白质功能位点预测中字符串核的设计与实验分析
1. 定量指标介绍
在蛋白质功能位点预测中,有几个重要的定量指标用于评估生物基础字符串(bio - basis string)的选择方法。
- α 指数 :它代表输入子序列与其对应的生物基础字符串的平均差异度,衡量了输入子序列相对于其对应生物基础字符串的紧凑性。公式中,$n_i$ 是所有生物基础字符串中与第 $i$ 个生物基础字符串 $v_i$ 具有最小差异值的子序列总数,${h(v_i, v_i) - h(x_j, v_i)}$ 是子序列 $x_j$ 与生物基础字符串 $v_i$ 的差异度。$\alpha$ 指数值随着所有子序列与其对应生物基础字符串的差异度增加而增大。对于给定数据集和 $c$ 值,平均差异度越低,$\alpha$ 值越低,子序列相对于其对应生物基础字符串的紧凑性越高,$\alpha$ 值也越低。
- β 指数 :用于对称两个生物基础字符串之间的不对称差异,其定义为两个生物基础字符串之间差异值的最小值。公式为:
$\beta = \min_{i,j} \left{\frac{1}{2}{d(v_j, v_i) + d(v_i, v_j)}\right} : 1 < i, j < c = \min_{i,j} \left{\frac{1}{2}{h(v_i, v_i) + h(v_j, v_j) - 2h(v_j, v_i)}\right}$
一个好的生物基础字符串选择程序应使所有生物基础字符串之间的不对称差异尽可能高,$\beta$ 指数随着生物基础字符串之间差异度的增加而增大。
- γ 指数