从头肽测序的更好评分模型:解释质量与测量质量的对称差异
在蛋白质组学中,基于质谱数据确定肽的氨基酸序列是一项重要任务。传统的从头测序方法存在一些局限性,本文提出了一种新的评分模型和算法,以提高测序的准确性。
1. 引言
蛋白质组学中,通过质谱数据确定肽的氨基酸序列是关键任务。典型的串联质谱实验分三步:
1. 质谱仪测量分析肽的质荷比和丰度。
2. 多种技术将多个肽副本在随机位置断裂成带电荷的前缀和后缀片段。
3. 质谱仪测量所得片段的质荷比和丰度。
但实验各步骤存在误差,导致部分前缀和后缀片段质量缺失,还有额外的质量数据。在这种嘈杂环境下,从头测序问题是根据第一步测得的肽质量 M 和第三步测得的前缀和后缀质量集 X,尽可能准确地计算分析肽的氨基酸序列。
以往方法通过计算质量为 M 的氨基酸字符串 S,使 S 的所有前缀和后缀质量集 TS(S) 包含 X 中尽可能多的质量(共享峰计数),部分方法还会对 TS(S) ∩ X 中的质量最大化更复杂的分数。然而,仅考虑 TS(S) 和 X 的交集可能导致偏向使用小质量氨基酸。例如,谷氨酰胺的质量与甘氨酸和丙氨酸的质量之和相同,在最大化 |TS(S) ∩ X| 时,可将谷氨酰胺替换为甘氨酸和丙氨酸而不减小交集大小。在理想实验中,存在字符串 S 使 TS(S) = X,但在实际实验中,我们希望解释 X 中的质量,而不解释不在 X 中的质量。
本文提出新的优化目标,计算使对称差 |TS(S) △X| = |TS(S) \ X| + |X \ TS(S)| 最小的字符串 S。
2. 问题定义
将肽视为字母表 Σ 中字符(氨基酸)的字符
超级会员免费看
订阅专栏 解锁全文
1658

被折叠的 条评论
为什么被折叠?



