蛋白质序列分析与生物医学论文主题分类研究
在生物信息学领域,蛋白质序列分析和生物医学研究论文的主题分类是两个重要的研究方向。本文将介绍一种基于粒度计算的蛋白质序列分析方法,以及 JRS’2012 数据挖掘竞赛中关于生物医学研究论文主题分类的相关内容。
蛋白质序列分析的粒度方法
粒度计算是一种信息处理范式,它使用具有一定分辨率的粒度作为基本计算单元。在蛋白质序列分析中,我们可以将无损信息分解应用于该领域,以提高计算效率。
蛋白质序列的无损分解
蛋白质的一级结构是由 20 种氨基酸组成的线性序列,每个氨基酸可以用一个字母表示。为了对蛋白质序列进行无损分解,我们可以将每个氨基酸及其在序列中的位置作为一个粒度。例如,序列 “ILLNQNLVRSI” 可以分解为 20 个粒度: :{0, 10}, :{1, 2, 6}, :{3, 5}, :{4}, :{ 7}, :{8},
:{9}; :{-1}, :{-1}, · · · ,其中 -1 表示相应的氨基酸在序列中未出现。
我们还可以进一步对每个粒度进行更细粒度的分解。例如,对于粒度 :{1, 2, 6},可以进一步分解为 :{2}, :{3}, :{6}, :{-1}, :{-1}, · · · 。通过这种分解,序列可以用一组粒度来表示。
基于粒度表示的蛋白质序列比对
评估两个蛋白质序列之间的相似性是蛋白质序列分析的基本任务之一。传统的 Needleman - Wunsch 算法和 Smith - Waterman 算法可以用于序列比对,但它们的时间复杂度较高。为了加快计算速度,我们提出了一种基于