42、生物序列比对算法与统计基础解析

生物序列比对算法与统计基础解析

1. 引言

在生物信息学中,在包含数万亿字符序列数据的数据库里搜索任意长度查询序列的近似比对,是一项艰巨的任务。解决这一问题不仅需要找到有效的比对方法,还需对发现的匹配结果做出客观、科学且独立于数据库内在关联的断言,而这些正是本文要探讨的核心内容。

2. 生物序列比对基础

2.1 全局与局部比对

  • 全局比对 :旨在匹配两个序列的整个长度。例如,对于查询序列“CIMGAPART”和主题序列“LIDAFEGAMPAT”,全局比对结果为“CI—MGA - PART”与“LIDAFEGAMPA - T”。
  • 局部比对 :寻找查询序列和主题序列子序列之间的最佳匹配。对于上述相同的查询和主题序列,局部比对结果是“GA - PART”与“GAMPA - T”,未参与比对的残基用括号表示,即“(CIM)GA - PART”和“(LIDAFE)GAMPA - T”。

2.2 比对算法

  • Needleman - Wunsch算法

    • 这是一种动态规划算法,用于进行全局比对。动态规划的特点是将大问题分解为一系列阶段,初始阶段解决某些子问题是可行的;后续阶段的部分解可通过对前面阶段固定数量的部分解进行递归计算得出;最终阶段包含整体解决方案。
    • 该算法允许为匹配、不匹配和空位分配值,如匹配赋值 +3,不匹配赋值 -1,空位赋值 -2。比对完成后,整体得分是每
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值