生物序列比对算法与统计基础解析
1. 引言
在生物信息学中,在包含数万亿字符序列数据的数据库里搜索任意长度查询序列的近似比对,是一项艰巨的任务。解决这一问题不仅需要找到有效的比对方法,还需对发现的匹配结果做出客观、科学且独立于数据库内在关联的断言,而这些正是本文要探讨的核心内容。
2. 生物序列比对基础
2.1 全局与局部比对
- 全局比对 :旨在匹配两个序列的整个长度。例如,对于查询序列“CIMGAPART”和主题序列“LIDAFEGAMPAT”,全局比对结果为“CI—MGA - PART”与“LIDAFEGAMPA - T”。
- 局部比对 :寻找查询序列和主题序列子序列之间的最佳匹配。对于上述相同的查询和主题序列,局部比对结果是“GA - PART”与“GAMPA - T”,未参与比对的残基用括号表示,即“(CIM)GA - PART”和“(LIDAFE)GAMPA - T”。
2.2 比对算法
-
Needleman - Wunsch算法 :
- 这是一种动态规划算法,用于进行全局比对。动态规划的特点是将大问题分解为一系列阶段,初始阶段解决某些子问题是可行的;后续阶段的部分解可通过对前面阶段固定数量的部分解进行递归计算得出;最终阶段包含整体解决方案。
- 该算法允许为匹配、不匹配和空位分配值,如匹配赋值 +3,不匹配赋值 -1,空位赋值 -2。比对完成后,整体得分是每
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



