An effective algorithm for peptide de novo sequencing from MS/MS spectra-优快云博客

本文链接：https://blog.youkuaiyun.com/Wis4e/article/details/146301414

2. 现有方法的问题

暴力搜索方法：枚举所有可能的肽序列并与 MS/MS 数据比对，计算量过大，不适用于长肽。
谱图图（spectrum graph）方法：将质谱数据转换成图，并寻找最长路径来推断序列，存在问题：
- 缺失片段（某些离子信号丢失，导致路径断裂）。
- 噪声干扰（背景噪声峰影响正确路径的识别）。
- 同质峰重叠（同一峰可能对应多个离子类型）。

3. 解决方案

定义 DP(x, y) 为构造出 b-ions 质量为 x，y-ions 质量为 y 的最优前缀-后缀组合的最大得分。
递推公式：
- 计算前缀 A 和后缀 A' 的得分
- 通过 chummy pair 机制（前缀和后缀质量的合理匹配）优化搜索空间
- 逐步构建最优的氨基酸序列

在 de novo 测序 过程中，需要构造一个 肽序列，使得其碎片离子（b-离子和 y-离子）尽可能多地匹配质谱中的峰。

直接暴力搜索所有前缀/后缀组合，会导致指数级复杂度，无法高效求解。

传统的 谱图图（spectrum graph） 方法，虽然减少了一些搜索，但仍然需要考虑大量可能的路径，计算成本高。

核心思想：使用动态规划，逐步扩展最优的 Chummy Pair

(1) 初始化

设 DP(x, y) 表示：
- 质量 x 的前缀 A
- 质量 y 的后缀 A'
- 形成的 chummy pair (A, A') 的最大得分。
初始条件：DP(0, 0) = 0（空序列）。

(2) 递推公式

扩展前缀 A（加入一个氨基酸 a）
- 如果 (A, A') 是 chummy pair，且 ‖A‖b < ‖A'‖y，则可以尝试扩展 A： DP(x+‖a‖,y)=DP(x,y)+f(x+‖a‖,x,y)DP(x + ‖a‖, y) = DP(x, y) + f(x + ‖a‖, x, y)DP(x+‖a‖,y)=DP(x,y)+f(x+‖a‖,x,y)
- 这里 f(u, v, w) 是新增一个离子后，增加的匹配得分。
扩展后缀 A'（加入一个氨基酸 a'）
- 如果 (A, A') 是 chummy pair，且 ‖A'‖y \geq ‖A‖b，则可以尝试扩展 A'： DP(x,y+‖a′‖)=DP(x,y)+f(M−(y+‖a′‖),M−y,M−x)DP(x, y + ‖a'‖) = DP(x, y) + f(M - (y + ‖a'‖), M - y, M - x)DP(x,y+‖a′‖)=DP(x,y)+f(M−(y+‖a′‖),M−y,M−x)

(3) 终止条件

方法	计算方式	复杂度	主要问题	Chummy Pair 如何优化？
暴力搜索	枚举所有序列	指数级 O(20^n)	计算量太大	避免暴力搜索
谱图方法	通过最长路径求解	O(n^2)	峰匹配不稳定	减少错误的峰匹配
本算法	动态规划 + Chummy Pair	O(n)	-	高效搜索最优序列