第二章 序列比对——Blast局部比对
主要为基因组测序比对相关知识,部分内容作笔记自查使用。如有错误或遗漏还请海涵,可评论或邮箱联系。
最后修改时间:2020-04-16 16:18:55 星期四
Blast局部比对流程
一、Filtering
【目的】
防止由于低复杂度和重复片段存在,而产生大量有统计学意义,但无生物学实际意义的比对结果
- 低复杂度和重复片段:
{\left( {CA} \right)_n}(CA)n
- KLKLKLKLKLKL
【方法】
将查询序列中极低复杂度的片段mask掉
- mask掩码
- 核酸残基用
{N_s}Ns
- 氨基酸残基用
{X_s}Xs
【程序参数】-F
:开启过滤
二、Seeding
【目的】
鸽子洞思想。将查询序列切片成一个一个的w-mers以便快速查找,其中w为切片长度
【方法】
- 氨基酸序列,w取3
- 核酸序列,w取11
【程序参数】-W 数字
:设定切片长度w
三、Search
【目的】
拿seeding产生list中的每一个word,去数据库中做匹配。保留匹配值大于设定阈值T的匹配点位置
- 对于氨基酸,使用BLOSUM矩阵或PAM矩阵
- 对于核酸,使用相同+5不相同-4,或相同+2不相同-3
【方法】
1、 哈希表法:给word设定键值,通过键值直接寻址找匹配
2、 有限自动机法:程序确定word里每一个字符的转换状态,然后去数据库中搜索
四、Extending
【目的】
将Search步骤找到的匹配点向前向后延伸,使之成为一个HSP。在扩展后的区域,应用Smith-Waterman动态规划算法,以便确定最终的比对,从而显著降低了计算量
【方法】
设定cutoff值S。如果延伸过程中,比对的打分低于S,我们就停止。下例设定S=0
五、Evaluation
【目的】
评估找到的比对结果的显著性。如果显著性水平高,说明该比对并不是因为随机原因而比对成功的
【方法】E = kmne{}^{ - \lambda S}E=kmne−λS
m:查询序列长度
n:数据库长度
S:HSP的原始得分
通常E<0.05,认为具有统计意义上的显著性
Blast程序
类型 | 工具名 | 用途 |
---|---|---|
核酸blast | blastn | 短序列标准搜索 |
megablast | 相似序列(单物种)之间比对 | |
discontiguous megablast | 跨物种序列比对 | |
蛋白质blast | blastp | 标准搜索 |
psi-blast | 使用blastp搜索结果,构建位置特异性打分矩阵(PSSM),迭代搜索 | |
phi-blast | 发现具有相同表达模型且相似的蛋白质序列 | |
核酸->蛋白 | blastx | 核酸序列转换成蛋白质序列搜索 |
tblastx | 核酸序列转换成蛋白质序列,再将核算数据库转换成蛋白质数据库搜索 | |
蛋白->核酸 | tblastn | 蛋白质序列转换成核酸序列搜索 |