最大二重保留字符串映射问题与MS/MS光谱识别方法
在生物信息学和数据处理等领域,最大二重保留字符串映射(MPSM)问题以及蛋白质鉴定中的串联质谱(MS/MS)光谱识别问题都是重要的研究方向。下面将分别对这两个问题的相关研究进行介绍。
最大二重保留字符串映射问题
问题概述
最大二重保留字符串映射问题旨在找到一种从字符串A到字符串B的映射,使得保留的二重(duo)数量最大化。为了解决这个问题,研究提出了一种基于组合三元组匹配的近似算法。
算法步骤
- 构建三元组图和二重图 :首先,构建三元组图$GT$和对应的二重图$GD$。对于字符串A和B,分别定义三元组$T_A^i$和二重$D_A^i$,其中$T_A^i$是以字符串A中字母$a_i$开头的三元组,$D_A^i$是以$a_i$开头的二重,且$D_A^i$和$D_A^{i + 1}$都是$T_A^i$的子集。
- 寻找最大权重三元组匹配 :在三元组图$GT$中找到最大权重的三元组匹配$MT$。
- 添加二重图边 :如果$(T_A^i, T_B^j)$是后半部分边,则将边$(D_A^{i + 1}, D_B^{j + 1})$添加到$GD$中。若三元组边$(T_A^i, T_B^j)$导致二重边$(D_A^i, D_B^j)$或$(D_A^{i + 1}, D_B^{j + 1})$出现,则称这些三元组支持这些二重边。同时,额外的‘&’字符会在这一步被丢弃,因为根据定义,它们不能成为任何匹配二重对的一部分。
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



