2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 下)

  • BLAST算法使用局部比对搜索的策略
    • BLAST算法组成部分:列表、扫描、延伸
      • BLASTP算法可以描述为以下3个阶段
        • 蛋白质搜索中,BLAST编译一个初步的两两比对序列,称为字段对
          • BLASTP算法编译了一个由查询序列生成的固定长度为w的字段列表。使用比对序列的分数建立一个阈值T。BLASTP字段大小默认为3(BLASTN为11),则20种氨基酸可能字段共有8000个。修改“字段大小”参数可以修改查询时间和灵敏度。
        • 算法在整个数据库中扫描打到某个阈值分数T的字段对。若扫描出结果,则使用有空位和无空位比对方法延伸匹配区段。BLAST延伸字段对来寻找分数超过阈值S的结果,并输出给用户。分数则通过打分矩阵并考虑空位罚分计算出来
          • 达到阈值T的片段对构成的列表编译完后,BLAST算法将对整个数据库进行扫描来找到匹配。目前BLAST版本(以书第三版为准),算法寻找两个间隔在一定距离为A之内的字段,然后生这两个匹配的一个无空位的延伸。
        • 回溯的结果会展示出插入或者缺失位点,以及不匹配的区段
          • 在BLASTP搜索中,可以修改f参数,调整默认值(11)来比较不同阈值水平下的影响
Usage: /home/chenlianfu/chenlianfu_scripts/blast.pl [options] BLAST_DB file.fasta > out.txt --tmp-prefix default: blast 设置临时文件或文件夹前缀。默认设置下,程序生成command.blast.list,blast.tmp/等临时文件或目录。 --chunk default: 10 设置每个数据块的序列条数。程序会将输入FASTA文件中的序列从前往后分割成多份,每10条相邻的序列分配到一个FASTA文件中;在blast.tmp/临时文件夹下生成次级文件夹,每个文件夹做多放置10个FASTA文件;每个fasta文件写出一条BLAST命令到command.blast.list文件中;然后程序调用ParaFly进行并行化计算。 请注意:若数据块的数量超过100万个,默认设置下blast.tmp/文件夹中的目录数量太多(超过1万个),导致文件系统运行缓慢,ParaFly程序运行效率低下,无法充分利用服务器计算资源。此时推荐设置--chunk参数为100。 --blast-program default: blastp 设置运行的BLAST命令,支持的命令有:blastn, blastp, blastx, tblastn, tblastx。 --CPU default: 1 设置并行运行的BLAST程序个数。 --blast-threads default: 1 设置BLAST命令的-num_threads参数。该参数让每个BLAST命令可以多线程运行。 请注意:--blast-threads参数--CPU参数的乘积不要超过服务器的CPU总计算线程数。 --evalue default: 1e-3 设置BLAST命令的-evalue参数--outfmt default: 5 设置BLAST命令的-outfmt参数。输出方式。若为5,则输出xml格式结果,若为6或7,则输出表格结果。 --max-target-seqs default: 20 设置BLAST命令的-max_target_seqs参数。该参数设置BLAST最多能匹配数据库中的序列数量。 -clean 若添加该参数,则在运行程序成功后,会删除临时文件或文件夹。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

穆易青

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值