基于字符串核的蛋白质功能位点预测设计
1. 引言
蛋白质功能位点的预测是生物信息学中的一个重要问题,它在蛋白质功能研究和药物设计中具有重要意义。大多数研究人员会以各种方式使用蛋白质序列来分析或预测蛋白质功能。生物信息学的主要任务之一就是对蛋白质序列进行分类和预测,主要有两种分析方式:
- 分析整个序列,旨在注释新蛋白质或对蛋白质进行分类。通过将新序列与已知序列进行比对,若相似度很高,则认为新蛋白质与已知蛋白质具有相同或相似的功能。
- 识别序列中的功能位点,通常处理子序列。
功能位点预测问题主要针对子序列,通过固定长度的滑动窗口逐个残基地移动来获取子序列。若子序列中存在功能位点,则标记为功能性;否则标记为非功能性。分类分析的主要目标是基于标记数据训练分类模型,然后用训练好的模型对新数据进行分类。这需要对对象进行两种描述:一是作为训练模型输入的特征集,二是类别标签。分类分析的目的是找到从特征到类别标签的映射函数。
用于分析蛋白质序列的模式识别算法有很多,一些使用字符或字符串作为基本类型,如 BLAST、基于后缀树的算法等;另一些则需要数值输入,如人工神经网络、支持向量机等,用于预测蛋白质中的不同功能位点。为了应用基于核的强大模式识别算法,生物数据在输入前必须进行编码,其目的是将序列中的非数值属性转换为数值属性。
子序列编码主要有两种方法:分布式编码技术和生物基函数(BBF)方法。分布式编码是最常用的方法,它使用 20 位二进制向量对 20 种氨基酸进行编码,但这种方法会不必要地扩展建模的输入空间,降低模型参数数量的比例,且欧几里得距离可能无法有效编码序列中的生物信息。
BBF 是一种字符串核函数,它基于输入子序列与一组参考字符串(
超级会员免费看
订阅专栏 解锁全文

15

被折叠的 条评论
为什么被折叠?



