第二章 序列比对——Blast局部比对

本文详细介绍了Blast算法的局部比对过程,包括过滤低复杂度和重复片段、seeding策略、搜索与扩展,以及比对结果的评价。重点讲解了各个步骤的原理和参数设置,适合基因组学研究者和工具使用者参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第二章 序列比对——Blast局部比对

 阅读量: 330

主要为基因组测序比对相关知识,部分内容作笔记自查使用。如有错误或遗漏还请海涵,可评论或邮箱联系。
最后修改时间:2020-04-16 16:18:55 星期四


Blast局部比对流程


一、Filtering

【目的】
防止由于低复杂度和重复片段存在,而产生大量有统计学意义,但无生物学实际意义的比对结果

  • 低复杂度和重复片段:
    • {\left( {CA} \right)_n}(CA)n
    • KLKLKLKLKLKL

【方法】
将查询序列中极低复杂度的片段mask掉

  • mask掩码
    • 核酸残基用{N_s}Ns
    • 氨基酸残基用{X_s}Xs

【程序参数】
-F:开启过滤


二、Seeding

【目的】
鸽子洞思想。将查询序列切片成一个一个的w-mers以便快速查找,其中w为切片长度

【方法】

  • 氨基酸序列,w取3
  • 核酸序列,w取11

【程序参数】
-W 数字:设定切片长度w


三、Search

【目的】
拿seeding产生list中的每一个word,去数据库中做匹配。保留匹配值大于设定阈值T的匹配点位置

  • 对于氨基酸,使用BLOSUM矩阵或PAM矩阵
  • 对于核酸,使用相同+5不相同-4,或相同+2不相同-3

【方法】
1、 哈希表法:给word设定键值,通过键值直接寻址找匹配
2、 有限自动机法:程序确定word里每一个字符的转换状态,然后去数据库中搜索


四、Extending

【目的】
将Search步骤找到的匹配点向前向后延伸,使之成为一个HSP。在扩展后的区域,应用Smith-Waterman动态规划算法,以便确定最终的比对,从而显著降低了计算量

【方法】
设定cutoff值S。如果延伸过程中,比对的打分低于S,我们就停止。下例设定S=0


五、Evaluation

【目的】
评估找到的比对结果的显著性。如果显著性水平高,说明该比对并不是因为随机原因而比对成功的

【方法】
E = kmne{}^{ - \lambda S}E=kmneλS
m:查询序列长度
n:数据库长度
S:HSP的原始得分

通常E<0.05,认为具有统计意义上的显著性


Blast程序

类型工具名用途
核酸blastblastn短序列标准搜索
megablast相似序列(单物种)之间比对
discontiguous megablast跨物种序列比对
蛋白质blastblastp标准搜索
psi-blast使用blastp搜索结果,构建位置特异性打分矩阵(PSSM),迭代搜索
phi-blast发现具有相同表达模型且相似的蛋白质序列
核酸->蛋白blastx核酸序列转换成蛋白质序列搜索
tblastx核酸序列转换成蛋白质序列,再将核算数据库转换成蛋白质数据库搜索
蛋白->核酸tblastn蛋白质序列转换成核酸序列搜索
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值