蛋白质功能位点识别中的字符串核方法
在蛋白质功能位点识别领域,有许多关键的技术和方法值得深入探讨。本文将详细介绍字符串核相关的技术,包括其原理、计算方法以及应用等方面。
1. 蛋白质功能位点识别的字符串核基础
在蛋白质功能位点识别中,有一个重要的公式用于计算判别能力,即 Fisher 比率:
[F(x_i) = \frac{|U_{A_i} - U_{B_i}|}{\sqrt{\sigma^2_{A_i} + \sigma^2_{B_i}}}]
其中:
[|U_{A_i} - U_{B_i}| = |E_A[h(x_j, x_i)] - E_B[h(x_k, x_i)]|]
[\sigma^2_{A_i} + \sigma^2_{B_i} = {E_A[h^2(x_j, x_i)] + E_B[h^2(x_k, x_i)]} - {[E_A[h(x_j, x_i)]]^2 + [E_B[h(x_k, x_i)]]^2]
该方法的基本步骤如下:
1. 使用上述 Fisher 比率计算所有子序列的判别能力。
2. 根据 Fisher 比率的值对所有子序列进行降序排序。
3. 从排序后的子序列中选择前 c 个子序列作为生物基础字符串集合 V。
需要注意的是,在非数值序列空间中,生物基础字符串之间的相似度应尽可能小,这样每个字符串才能在数值特征空间中代表一个独特的特征。
2. 新型字符串核函数
基于生物差异和生物基础字符串影响区域的概念,提出了一种新型字符串核函数。
2.1 生物差异的不对称性
定义两个子序列 (
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



