蛋白质分类、核函数与支持向量机详解
蛋白质相似度评估
在对一组蛋白质进行分类和聚类时,需要定义一个相似度因子或距离来评估和比较蛋白质。例如,三种蛋白质之间的相似度可以定义为它们序列注释的归一化点积。
我们不需要将蛋白质的整个序列注释表示为特征向量来确定它们是否属于同一类。只需要逐个比较每个序列的元素并计算相似度,而且相似度的估计也不要求两个蛋白质具有相同的长度。
假设用字符 c 和位置 p 表示蛋白质注释的一个元素(例如:K, 4),两个长度分别为 n 和 n' 的蛋白质注释 x 和 x' 的点积可以定义为两个注释中相同元素(字符和位置)的数量除以两个注释的最大长度:
[
sim(x,x’) = \frac{\sum_{i=1}^{mx} \left[ (c_i = c’_i) \cap (p_i = p’_i) \right]}{max(n,n’)}
]
计算三种蛋白质的相似度,结果为 sim(x,x') = 6/12 = 0.50 , sim(x,x'') = 3/13 = 0.23 , sim(x',x'') = 4/13 = 0.31 。另外,两个相同注释的相似度为 1.0,两个完全不同注释的相似度为 0.0。
相似度可视化
通常使用径向表示法来可视化特征之间的相似度更为方便,如蛋白质注释的例子。距离
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



