BLAST软件功能介

最新推荐文章于 2024-02-21 21:11:57 发布

原创最新推荐文章于 2024-02-21 21:11:57 发布 · 834 阅读

CC 4.0 BY-SA版权

文章标签：

#数据库 #alignment #string #file #database #c

程序名	查询序列	数据库	搜索方法
Blastn	核酸	核酸	核酸序列搜索逐一核酸数据库中的序列
Blastp	蛋白质	蛋白质	蛋白质序列搜索逐一蛋白质数据库中的序列
Blastx	核酸	蛋白质	核酸序列翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。
Tblastn	蛋白质	核酸	蛋白质序列和核酸数据库中的核酸序列翻译后的蛋白质序列逐一比对。
TBlastx	核酸	核酸	核酸序列翻译成蛋白质序列，再和核酸数据库中的核酸序列框翻译成的蛋白质序列逐一进行比对。

a. 格式化序列数据库Wish-Space%U5T'T7~3[)_7g&s |

&{ Q o8g"x E B0在对核苷酸或蛋白质序列数据库进行BLAST搜索之前，必须要对所使用的序列数据库进行formatdb，即对序列数据库进行格式化，这是所有使用BLAST所必须的一步。格式化序列数据库——formatdb

-K m | K X4Z0Wish-Space f I0d O-Q#}1x a T w

formatdb简单介绍
,K4o t1^,_ k,D0formatdb处理的都是格式为 ASN.1和 FASTA，而且不论是核苷酸序列数据库，还是蛋白质序列数据库；不论是使用Blastall ，还是Blastpgp，Mega Blast应用程序，这一步都是不可少的。

&A Q;U Y/M k$l ` k0

l#i"T g O4x0l0formatdb命令行参数:

? X/U c*s4{ v%m [ w0

H0N E C ] a5p {0-i 输入需要格式化的源数据库名称 Optional
z U ]:H R0-p 文件类型，是核苷酸序列数据库，还是蛋白质序列数据库 T – protein F - nucleotide [T/F] Optional default = TWish-Space C X m u"`%g u4v#J

(j-r t)u / J;Z h0-a 输入数据库的格式是ASN.1（否则是FASTA）T - True, F - False. [T/F] Optional default = F

X y8g ^ _ V0

a#^ P C9I I;X*~0-o 解析选项 T - True: 解析序列标识并且建立目录 F - False: 与上相反 [T/F] Optional default = FWish-Space1~ Z#Y u"k%W

C p z B I L c V v0命令示例:Wish-Space b+u p1D:C ] B T ~

Wish-Space p1N j8G `*w Z P P!H,D B!k

formatdb -i ecoli.nt -p F -o TWish-Space a:K x S S

Wish-Space'E E.`#e P k9a g;K

运行此命令就会在当前目录下产生用于BLAST搜索的7个文件，一旦如上的formatdb命令执行完毕，就不再需要ecoli.nt，可以移除。此时，blastall可以直接使用。
L)b3P L u o4[#l b0

Q @ ?0X | ?0

b. Blastall常用参数简析

-a M y*S B b } s0Wish-Space:t:_ I g t N a V'G

(关于blast更详细资料可以查询：http://www.genomescience.com.cn/linux/blast/blast.htm) http://sunjsp.com

h O q p }/i J#|0Wish-Space9k'Z e0r R V!s;s O/e

在使用blastall对测试序列在序列数据库中进行查询之前，用户需要对blastall命令涉及的主要常用参数有充分的理解。下面简要介绍一下blastall命令涉及的主要常用参数：

(q e e-y p#B0Wish-Space$X E7u ` u m A F7} /

用户可以在命令行方式下运行：blastall –

!d"C'|7f y$R"a | T ~0

H j"q k w;` y c z0将会列出blastall 命令的所有参数设置（见附录三），下面对blastall 主要常用参数进行说明：Wish-Space4L*? T } | ~ C
Wish-Space u D @$g E y ^ _3t'j i M1V

Wish-Space ~.{ ^ O ` ~ d E*x#y

-p Program Name [String]所用程序名称[String]，用户可以根据需要从blastn，blastp，blastx，tblastn，tblastx中任选一程序。
-x3@ P)U w [ M ~&v u0-d Database [String] default = nr 所用序列数据库的名称 [String]，默认为：nr，本文例为：ecoli.nt
(`.s c J F0-i Query File [File In] default = stdin 所用查询序列文件[File In]，默认为：stdin，本文例为 test.txt
,W0o t d$b X3U*@0-e Expectation value (E) [Real] default = 10.0 期望值[Real] 默认为10.0 描述搜索某一特定数据库时，随机出现的匹配序列数目。
o'g H o c ? B%p;b ](a0-m alignment view options: 比对显示选项，其具体的说明可以用以下的比对实例说明
)E(W q%z s/U(X,Z0Wish-Space s Z ~ Z w

M A&F6h K3D q0以上所列只是blastall命令部分参数的说明（全部参数的说明见附录三），用户在对自己的序列进行BLAST时可根据自己的需要选择参数，以便得到自己需要的查询报告。同时，参数选择的正确与否也是blastall程序能否顺利执行的关键。Wish-Space W c4Z ? / E9@-e-I

.B {3u7e k&H:O0--------------------------------------------------------------------------------

m4_2T)e5v.Q A5K2J S0

l U(z Y j O%k @ C V q0计算实例:Wish-Space%@ B Y,C O

X [!X v M#p,R k s0

A l&{ K u e0用户在准备好自己所需的查询序列和对应的序列数据库（本例为：Ecoli.nt ------大肠杆菌的全基因组序列）后，就可以运行blastall 程序进行BLAST了。本例为用blastn程序用test.txt作为查询序列去搜索核酸序列库 Ecoli.nt 。
a8s q)G"S0

4R T l N8F J+B'e h0

U w t E8D0执行命令:Wish-Space o*T%M |8Q9S&G1a o)B e

5k f E'b y$x j V0blastall -p blastn -d ecoli.nt -i test.txt -o test.out

X K T `"v L0 b,Z$Y p f/F ~ O0

对应test.txt中的查询序列得到查询结果文件test.out