生物序列基序识别算法研究与分析
在生物信息学领域,基序识别是一项至关重要的任务,它对于理解生物分子家族的特征、功能和结构具有重要意义。本文将介绍两种不同的基序识别方法,分别是基于图聚类的弱基序识别算法MCL - WMR和基于信息论的蛋白质家族比对中非共识基序检测方法。
MCL - WMR算法:图聚类助力弱基序识别
MCL - WMR是一种用于弱基序识别的图聚类算法,其核心在于利用图的结构和权重信息来发现隐藏在生物序列中的基序。
基序相关团的权重分布特征
通过实验研究包含基序共识的团和不包含基序共识的团的权重分布。对于非基序团的数据,是通过运行MCL - WMR算法100次,计算团的总权重,并生成这些值的直方图得到的。实验数据针对(15, 4)基序问题实例,当m = 15时,发现随着m值增大,非基序团的权重分布会更集中于均值附近。进一步实验表明,当m = 50时,数据集中未发现虚假团,这符合我们的直觉,即当m较大时,数据集中随机出现的虚假团很少。这一结果也让我们对MCL - WMR算法检测团(包括虚假团和对应基序的团)的能力充满信心,因为它在检测嵌入基序方面具有较高的准确性。
算法复杂度分析
在算法复杂度方面,寻找给定输入图中最大团的问题是NP完全问题,不太可能在多项式时间内解决。目前已知的寻找大小为k的团的最佳算法运行时间为O(mck/3),其中c是两个整数m×m矩阵相乘时间界的指数,已知的最佳值c为2.38。而直接检查所有大小为k的子集的算法运行时间为O(mk + 2),在实际中更有可能被实现。此外,Yang和Rajapakse的动态规划团查找算法运行时间为O(m(nA2 + An - 1p2n - 5)) ,
超级会员免费看
订阅专栏 解锁全文
51

被折叠的 条评论
为什么被折叠?



