程序名 | 查询序列 | 数据库 | 搜索方法 |
Blastn | 核酸 | 核酸 | 核酸序列搜索逐一核酸数据库中的序列 |
Blastp | 蛋白质 | 蛋白质 | 蛋白质序列搜索逐一蛋白质数据库中的序列 |
Blastx | 核酸 | 蛋白质 | 核酸序列翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。 |
Tblastn | 蛋白质 | 核酸 | 蛋白质序列和核酸数据库中的核酸序列翻译后的蛋白质序列逐一比对。 |
TBlastx | 核酸 | 核酸 | 核酸序列翻译成蛋白质序列,再和核酸数据库中的核酸序列框翻译成的蛋白质序列逐一进行比对。 |
a. 格式化序列数据库
在对核苷酸或蛋白质序列数据库进行BLAST搜索之前,必须要对所使用的序列数据库进行formatdb, 即对序列数据库进行格式化,这是所有使用BLAST所必须的一步。格式化序列数据库——formatdb
formatdb简单介绍
formatdb处理的都是格式为 ASN.1和 FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。
formatdb命令行参数:
-p 文件类型,是核苷酸序列数据库,还是蛋白质序列数据库 T – protein F - nucleotide [T/F] Optional default = T
-a 输入数据库的格式是ASN.1(否则是FASTA)T - True, F - False. [T/F] Optional default = F
-o 解析选项 T - True: 解析序列标识并且建立目录 F - False: 与上相反 [T/F] Optional default = F
命令示例:
formatdb -i ecoli.nt -p F -o T
运行此命令就会在当前目录下产生用于BLAST搜索的7个文件,一旦如上的formatdb命令执行完毕,就不 再需要ecoli.nt,可以移除。此时,blastall可以直接使用。
b. Blastall常用参数简析
(关于blast更详细资料可以查询:http://www.genomescience.com.cn/linux/blast/blast.htm) http://sunjsp.com
在使用blastall对测试序列在序列数据库中进行查询之前 ,用户需要对blastall命令涉及的主要常用参数有充分的理解。下面简要介绍一下blastall命令涉及的主要常用参数:
用户可以在命令行方式下运行:blastall –
-p Program Name [String]所用程序名称[String],用 户可以根据需要从blastn,blastp,blastx,tblastn,tblastx中任选一程序。
-d Database [String] default = nr 所用序列数据库的名称 [String],默认为:nr,本文例为:ecoli.nt
-i Query File [File In] default = stdin 所用查询序列文件[File In], 默认为:stdin,本文例为 test.txt
-e Expectation value (E) [Real] default = 10.0 期望值[Real] 默认为10.0 描述搜索某一特定数据 库时,随机出现的匹配序列数目。
-m alignment view options: 比对显 示选项,其具体的说明可以用以下的比对实例说明
以上所列只是blastall命令部分参 数的说明(全部参数的说明见附录三),用户在对自己的序列进行BLAST时可根据自己的需要选择参数, 以便得到自己需要的查询报告。同时,参数选择的正确与否也是blastall程序能否顺利执行的关键。
--------------------------------------------------------------------------------
计算实例:
执行命令:
blastall -p blastn -d ecoli.nt -i test.txt -o test.out
对应test.txt中的 查询序列得到查询结果文件test.out