SEPA:核苷酸序列比对的近似非主观经验 p 值估计
1. 引言
在比较基因组学领域,人们十分关注功能基因组学方面。通常,我们会对两个或多个序列进行比对,期望从比对中选出的重要区域能指向显著的共同生物学功能,尽管我们知道这并非绝对。为了快速关注最相关的相似子序列,有必要对比对的重要区域进行比较,并按相关性排序。通过将相关序列的比对与无共同生物学功能的无关序列的比对进行比较,我们可以得出任何比对中重要区域偶然出现的概率,即 p 值。低 p 值意味着高相关性。
此前已有许多 p 值估计技术被提出和研究,如 Karlin - Altschul 和 Siegmund - Yakir 提出的方法,但都不尽如人意。本文聚焦于利用经验结果,改进长度在 0.5 Kb 至 12 Kb 之间、预期有大间隙和低相似度的非编码核苷酸序列比对的 p 值近似。这些比对常使用复杂但符合生物学实际的分段线性间隙惩罚函数模型,如 Plains 算法;此外,LAGAN 和 EMBOSS 等技术也很有效。
我们将展示一种名为 SEPA(成对序列比对的片段评估器)的 p 值近似技术的有效性,它能选择并对重要片段对进行评分。对于随机序列,我们还将从经验上描述各种比对统计量(如片段对长度、得分和大小)如何随序列长度分布。通过这种分析,我们可以估计 p 值近似的参数,并展示该方法在区分序列中重要同源性和不重要的偶然子比对方面的敏感性。此外,SEPA 是非主观的,可轻松应用于任何比对工具。我们将通过比较 Plains、LAGAN 和 EMBOSS 的结果来说明这一优势。尽管 SEPA 基于经验,但它能满足比较基因组学中核心搜索过程的实际计算需求,加快计算速度。
超级会员免费看
订阅专栏 解锁全文
490

被折叠的 条评论
为什么被折叠?



