TAXAassign v0.4 安装指南
TAXAassign v0.4 是一个基于 NCBI 分类系统的分类学注释工具,适用于对核酸序列(包括宏基因组组装片段、全基因组测序读段、16S rRNA 序列等)进行不同分类学层级的注释。
1. 环境需求
- 操作系统:Linux 或 MacOS
- 依赖工具:GNU Parallel、Blastn 2.28+、BioSQL、MySQL 或 SQLite、Perl 和 Python
2. 安装 GNU Parallel
GNU Parallel 用于并行化执行命令。可以从 GNU Parallel 官方网站下载并安装:
wget https://ftp.gnu.org/gnu/parallel/parallel-latest.tar.bz2
tar -xjf parallel-latest.tar.bz2
cd parallel-*
./configure && make && sudo make install
3. 安装 Blastn 2.28+ 和 NCBI 的 nt 数据库
-
下载并安装
Blastn2.28+:wget https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.28/ncbi-blast-2.2.28+-x64-linux.tar.gz tar -xzf ncbi-blast-2.2.28+-x64-linux.tar.gz export PATH=$PATH:/path/to/ncbi-blast-2.2.28+/bin -
下载
nt数据库:使用
update_blastdb.pl脚本下载最新的nt数据库:perl update_blastdb.pl nt
4. 安装 BioSQL 和设置数据库
BioSQL 用于存储 NCBI 的分类信息。可以使用 MySQL 或 SQLite 作为数据库。
-
安装 BioSQL:
wget http://biosql.org/DIST/biosql-1.0.1.tar.gz tar -xzf biosql-1.0.1.tar.gz -
设置 MySQL 数据库并导入 BioSQL schema:
mysqladmin -u root create bioseqdb mysql -u root bioseqdb < biosql-1.0.1/scripts/biosqldb-mysql.sql这一步需要安装MySQL
-
导入 NCBI 分类数据:
biosql-1.0.1/scripts/load_ncbi_taxonomy.pl --dbname bioseqdb --driver mysql --dbuser root --download true -
使用 SQLite 数据库(可选):
如果没有 MySQL,可以使用 SQLite。本地下载已准备好的 SQLite 数据库:
cd /path/to/TAXAassign mkdir database && cd database wget http://userweb.eng.gla.ac.uk/umer.ijaz/bioinformatics/db.sqlite.gz gunzip db.sqlite.gz
5. 配置 TAXAassign
打开 TAXAassign.sh 脚本文件,设置以下参数:
# = Parameters to set ============== #
LOGFILE="`pwd`/TAXAassign.log"
BLASTN_DIR="/path/to/ncbi-blast-2.2.28+/bin"
BLASTDB_DIR="/path/to/ncbi-blast-2.2.28+/db"
FASTA_FILE=""
PARALLELIZE_FLAG=0
NUMBER_OF_CORES=10
NUMBER_OF_REFERENCE_MATCHES=10
MINIMUM_PERCENT_IDENT=97
MINIMUM_QUERY_COVERAGE=97
CONSENSUS_THRESHOLD=90
TAXONOMIC_LEVELS_THRESHOLD=""
# =/Parameters to set ============== #
6. 运行测试数据
-
准备测试数据:
mkdir check_TAXAassign cp /path/to/TAXAassign/data/test.fasta check_TAXAassign/ cd check_TAXAassign -
运行测试:
bash /path/to/TAXAassign/TAXAassign.sh -p -c 10 -t 70 -m 60 -a "60,70,80,95,95,97" -f test.fasta
7. 检查输出文件
检查生成的 CSV 文件,包括 test_ASSIGNMENTS.csv、test_PHYLUM.csv、test_CLASS.csv 等。test_ASSIGNMENTS.csv 的内容格式如下:
Sequence ID, Phylum, Class, Order, Family, Genus, Species
至此,TAXAassign 安装和运行已完成。如遇问题,可查看 TAXAassign.log 文件获取调试信息。
1629

被折叠的 条评论
为什么被折叠?



