BLAST原理和用法总结(二)

本地BLAST

1.基本用法

以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用BlastP搜索Swiss-Prot数据库。

blastp -query HBA_HUMAN.FASTA -db uniprot_sprot|less

参数说明:

b l a s t p blastp blastp:蛋白blast

− q u e r y -query query:参数,要检索的序列

H B A _ H U M A N . F A S T A HBA\_HUMAN.FASTA HBA_HUMAN.FASTA:人血红蛋白的FASTA文件

− d b -db db:参数,检索的数据库

u n i p r o t _ s p r o t uniprot\_sprot uniprot_sprot:SWISS PROT

结果:

找到了数据库中所有相似序列。

如果要将检索结果输出为单独文件,则添加参数 − o u t -out out,如:

blastp -query HBA_HUMAN.FASTA -db uniport_sprot -out HBA_SW.TXT
2.结果筛选

添加参数 − e v a l u e -evalue evalue

blastp -query HBA_HUMAN.FASTA -db uniprot_sprot_human -evalue 0.1 -outfmt 7|less

参数说明:

− e v a l u e -evalue evalue:筛选evalue小于0.01的序列

− o u t f m t -outfmt outfmt:结果显示为表格形式

结果:

在这里插入图片描述

共找到了11条序列,结果中列的意义从左到右为:

搜索序列、标靶序列、相似度、比对长度、错配数、起始空位数、检索序列起始位点、检索序列终止位点、标靶序列起始位点、标靶序列终止位点、期望值evalue、得分。

3.改变参数
设置字长

添加参数 − w o r d _ s i z e -word\_size word_size,一般blastp中字长默认值为6,例如设置字长为2:

blastp -query HBA_HUMAN.FASTA -db uniprot_sprot_human -evalue 1 -outfmt 7 -word_size 2|less

结果:

在这里插入图片描述

找到了12条序列,相比前一次blast,多了亲缘关系更远的NGB蛋白,原因已在原理中介绍。

设置计分矩阵

添加参数 − m a t r i x -matrix matrix,一般默认计分矩阵为 B L O S U M 62 BLOSUM62 BLOSUM62

将计分矩阵改为 P A M 250 PAM250 PAM250

blastp -query HBA_HUMAN.FASTA -db uniport_sprot_human -evalue 1 -outfmt 7 -matrix PAM250|less

结果:

同样找到了NGB蛋白

4.PSI-BLAST

使用命令 p s i b l a s t psiblast psiblast,添加参数 − n u m _ i t e r a t i o n s -num\_iterations num_iterations

无迭代的情况:

psiblast -query HBA_HUMAN.FASTA -db uniprot_sprot_human -evalue 0.001 -outfmt 7 -num_iterations 1|less

与之前一样找到了11个蛋白序列

两次迭代:

psiblast -query HBA_HUMAN.FASTA -db uniprot_sprot_human -evalue 0.001 -outfmt 7 -num_iterations 2 -comp_based_stats 0|less

第二次迭代结果:

经过迭代,重新找到了NGB蛋白

5.双序列比对,指定起始位点

参数:

主序列: − q u e r y -query query

副序列: − s u b j e c t -subject subject

主序列起始位点: − q u e r y _ l o c   f r o m − t o -query\_loc\ from-to query_loc fromto

副序列起始位点: − s u b j e c t _ l o c   f o r m − t o -subject\_loc\ form-to subject_loc formto

以癌胚抗原搜索结构域为例:

blastp -query CEA21_HUMAN.FASTA -query_loc 147-231 -subject CEAM5_HUMAN.FASTA -subject_loc 145-675 -outfmt 7|less

在这里插入图片描述

找到了六个恒定结构域,这些结构域之间存在相似性

6.建立自己的检索数据库

使用 m a k e b l a s t d b makeblastdb makeblastdb功能

构建玉米转录因子的本地蛋白序列数据库:

makeblastdb -dbtype prot -in ZMTF_PEP.FASTA -out ZMTF_PEP

构建玉米转录因子的核酸本地数据库:

makeblastdb -dbtype nucl -in ZMTF_CDS.FASTA -out ZMTF_CDS

参数说明:

− d b t y p e -dbtype dbtype :数据库类型,prot为蛋白,nucl为核酸

− i n -in in :输入的序列文件

− o u t -out out :输出的文件名

构建完成后:

在这里插入图片描述

出现三个后缀为nhr、nin、nsq的文件,即数据库构建完成,可以在参数 − d b -db db 后输入自己构建的数据库名

NCBI-BLAST

NCBI-BLAST用法:

网址:[BLAST: Basic Local Alignment Search Tool (nih.gov)]:

1.数据输入

以protein blast为例:
在这里插入图片描述
在这里插入图片描述

E n t e r   Q u e r y   S e q u e n c e Enter\ Query\ Sequence Enter Query Sequence:输入序列,也可在下方上传文件

Q u e r y   s u b r a n g e Query\ subrange Query subrange :输入起始和终止位点

如果要进行序列比对,勾选下方的 A l i g n   t w o   o r   m o r e   s e q u e n c e Align\ two\ or\ more\ sequence Align two or more sequence

D a t a b a s e s Databases Databases:一般勾选前一个

D a t a b a s e Database Database:选择数据库

O r g a n i s m Organism Organism :选择物种,可输入物种英文名/学名/taxid,勾选后方的 e x c l u d e exclude exclude为排除某物种

P r o g r a m   S e l e c t i o n Program\ Selection Program Selection:选择BLAST模式

2.选择参数

打开下方的 A l g o r i t h m p a r a m e t e r s Algorithm parameters Algorithmparameters,一般情况下默认参数可以满足要求

在这里插入图片描述

W o r d   s i z e Word\ size Word size :选择字长

M a t r i x Matrix Matrix :选择计分矩阵

g a p   c o s t s gap\ costs gap costs:起始空位罚分和延伸空位罚分

3.结果筛选

比对成功后,结果页面 F l i t e r   r e s u l t s Fliter\ results Fliter results处可以进行结果筛选

在这里插入图片描述

o r g a n i s m organism organism :筛选物种

p e r c e n t   i d e n t i t y percent\ identity percent identity:筛选相似度

q u e r y   c o v e r a g e query\ coverage query coverage:筛选匹配上的序列长度

参考资料

生物信息学方法,北京大学 高歌

BLAST算法,降帅

Needleman, S. B. & Wunseh, (3. D. (1970). J. Mol. Biol.48, 443-453.

Waterman, M. S. (1984). Bull. Math. Biol. 46, 473-500.

Altschul, S. F., et al. Basic Local Alignment Search Tool. Journal of Molecular Biology 215, 403–410
(1990) doi:10.1016/S0022‑2836(05)80360‑2

Karlin, S. and S. F. Altschul (1990). “METHODS FOR ASSESSING THE STATISTICAL SIGNIFICANCE OF MOLECULAR SEQUENCE FEATURES BY USING GENERAL SCORING SCHEMES.” Proceedings of the National Academy of Sciences of the United States of America 87(6): 2264-2268.

ll. Math. Biol. 46, 473-500.

Altschul, S. F., et al. Basic Local Alignment Search Tool. Journal of Molecular Biology 215, 403–410
(1990) doi:10.1016/S0022‑2836(05)80360‑2

Karlin, S. and S. F. Altschul (1990). “METHODS FOR ASSESSING THE STATISTICAL SIGNIFICANCE OF MOLECULAR SEQUENCE FEATURES BY USING GENERAL SCORING SCHEMES.” Proceedings of the National Academy of Sciences of the United States of America 87(6): 2264-2268.

<think>好的,我现在需要帮助用户解决如何使用Miniconda安装BLAST工具的问题。首先,用户已经提到了他们想将BLAST安装到Miniconda环境中,并且提供了几个相关的引用链接。我需要先理解这些引用的内容,然后整合出一个清晰的步骤指南。 根据引用[1],用户需要先安装Miniconda,所以第一步应该是确认用户是否已经安装了Miniconda。如果还没有安装,需要指导他们去官网下载并安装。然后,引用[2]引用[3]提到了使用conda命令安装BLAST,特别是通过bioconda频道。另外,引用[3]还提到在创建环境时指定多个频道(如biocondaconda-forge),以避免依赖问题。这可能是因为某些软件包依赖其他频道的包,所以需要同时添加这些频道。 接下来,用户的问题可能涉及如何创建激活Conda环境,安装BLAST,以及验证安装。我需要将这些步骤分解开来,确保每一步都清晰易懂。例如,创建环境、激活环境、安装BLAST,然后验证是否安装成功。此外,引用[4]提到了建库使用的例子,这可能作为后续步骤,但用户当前的问题主要是安装,所以这部分可能放在验证步骤中简要提及。 需要注意的是,用户可能对Conda不熟悉,所以步骤要详细,包括命令示例。例如,安装命令可能需要指定频道,如“conda install -c bioconda blast”。另外,引用[3]建议使用mamba来加快速度,这可能是一个优化步骤,但用户可能只需要基本方法,所以可以作为可选建议。 可能遇到的问题包括频道未正确添加导致安装失败,或者环境未正确激活。因此,在步骤中需要强调添加必要的频道,并在安装前激活环境。另外,用户可能需要知道如何确认安装是否成功,比如运行“blastn -help”来查看帮助信息。 总结步骤应该是: 1. 安装Miniconda(如果尚未安装)。 2. 创建并激活Conda环境。 3. 添加必要的频道(bioconda、conda-forge等)。 4. 安装BLAST。 5. 验证安装。 需要检查每个步骤的命令是否正确,并参考提供的引用确保准确性。例如,引用[2]中的安装命令是“conda install -c bioconda blast”,而引用[3]提到使用多个频道,所以在安装时可能需要指定多个“-c”参数,或者在配置中预先添加这些频道到conda的配置中。 此外,用户可能想知道如何处理依赖问题,所以可以建议他们按照引用[3]的方法,在创建环境时一次性添加所有需要的频道,以避免缺包错误。这可以通过命令如“conda create -n myenv -c bioconda -c conda-forge blast”来实现,或者在安装时明确指定多个频道。 最后,验证部分需要指导用户运行BLAST的命令,如“blastn -version”或查看帮助文档,并可能引用到引用[4]中的建库步骤作为后续使用示例,但安装部分到此为止。</think>### 使用 Miniconda 安装 BLAST 工具的步骤 #### 1. **安装 Miniconda** - 如果尚未安装 Miniconda,请从[官网](https://conda.io/miniconda.html)下载对应操作系统的安装包[^1]。 - 执行安装脚本,按提示完成安装。例如在 Linux 中: ```bash bash Miniconda3-latest-Linux-x86_64.sh ``` #### 2. **创建并激活 Conda 环境(可选但推荐)** - 为避免依赖冲突,建议新建独立环境: ```bash conda create -n blast_env conda activate blast_env ``` #### 3. **添加 Conda 频道** - BLAST 位于 `bioconda` 频道,需提前配置频道优先级: ```bash conda config --add channels defaults conda config --add channels bioconda conda config --add channels conda-forge conda config --set channel_priority strict ``` 此操作确保依赖解析时优先从指定频道获取包[^3]。 #### 4. **安装 BLAST** - 在激活的环境中执行: ```bash conda install blast ``` 或明确指定频道(若未提前配置): ```bash conda install -c bioconda -c conda-forge blast ``` #### 5. **验证安装** - 运行以下命令检查是否成功: ```bash blastn -help ``` 若输出了帮助信息(如版本、参数说明),则安装成功[^4]。 --- ### 关键原理说明 - **Conda 频道的作用**:`bioconda` 是生物信息学工具的专用频道,`conda-forge` 提供通用依赖包。多频道联合使用可解决复杂依赖关系[^2][^3]。 - **独立环境的意义**:隔离不同项目的依赖版本,避免冲突(例如 BLAST 依赖的库与其他工具不兼容)。 --- ### 进阶操作 - **使用 Mamba 加速安装**(可选): ```bash conda install mamba -n base -c conda-forge mamba install -n blast_env -c bioconda blast ``` Mamba 是 Conda 的快速替代品,适合处理复杂依赖[^3]。 --- ### 后续应用示例 安装完成后,可参考以下流程使用 BLAST: 1. **构建本地数据库**: ```bash makeblastdb -in reference.fasta -dbtype nucl -out my_db ``` 2. **执行序列比对**: ```bash blastn -query input.fasta -db my_db -out results.txt ``` 具体参数含义可查看[官方文档](https://blast.ncbi.nlm.nih.gov/Blast.cgi)---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值