Kraken2 物种序列比对注释

最新推荐文章于 2024-06-15 10:45:00 发布

原创

最新推荐文章于 2024-06-15 10:45:00 发布 · 4.4k 阅读

6 ·

CC 4.0 BY-SA版权

本文介绍了Kraken2的物种注释方法，涉及数据库结构、标准构建步骤、非NCBI数据库的选择以及如何添加自定义基因组。重点讲解了kraken2-build工具及其参数，包括下载、索引构建和数据库扩充的过程。

kraken基于k-mer精确比对，采用最LCA投票结果快速宏基因组DNA序列进行物种注释。
Kraken2数据库至少包括3个文件

hash.k2d: 物种地图，即所有序列与物种的数据库

opts.k2d: 数据库构建的信息

taxo.k2d: 数据库的分类学信息

以上文件为快速读取，全为二进制文件。
如果仅使用kraken2，除以上三个文件外，其它的文件在空间有限下可以删除。如果要使用bracken时，仍需保留其他文件，用于构建索引等。

标准数据库构建

#下载数据库，先设置存放位置
DBNAME=~/db/kraken2/201127
mkdir -p $DBNAME
#可调线程数据，加速构建过程
kraken2-build --standard --threads 24 --db $DBNAME

标准模式下只下载5种数据库：古菌archaea、细菌bacteria、人类human、载体UniVec_Core、病毒viral

# 下载数据库，先设置存放位置
DBNAME=~/db/kraken2/201201
mkdir -p DBNAME
cd $DBNAME
 
# 下载物种注释，259
kraken2-build --download-taxonomy --threads 24 --db $DBNAME
 
# 下载非默认数据库中的真菌库 1.33G
kraken2-build --download-library fungi --threads 24 --db $DBNAME
 
# 批量下载，非标准数据库
for i in archaea bacteria plasmid viral human fungi plant protozoa nr nt env_nr env_nt UniVec; do
kraken2-build --download-library $i --threads 24 --db $DBNAME
done
 
# 确定的库建索引
kraken2-build --build --threads 24

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

TIME_@

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Kraken2：宏基因组快速物种注释神器

刘永鑫的博客——宏基因组公众号

01-04

5万+

简介kraken是基于k-mer精确比对，并采用最LCA投票结果快速宏基因组DNA序列进行物种注释的软件。图. Kraken2分类基本原理该文章于2014年发表于Genome Biolo...

宏基因组分析|物种注释——kraken2+bracken

2 条评论

ssshuhu 2023.08.22
请问构建数据库的时候报错如何解决？ Downloading nucleotide gb accession to taxon map...rsync: failed to connect to ftp.ncbi.nlm.nih.gov (2607:f220:41e:250::10): Network is unreachable (101) rsync: failed to connect to ftp.ncbi.nlm.nih.gov (2607:f220:41e:250::13): Network is unreachable (101) rsync: failed to connect to ftp.ncbi.nlm.nih.gov (130.14.250.7): Network is unreachable (101) rsync: failed to connect to ftp.ncbi.nlm.nih.gov (165.112.9.229): Network is unreachable (101) rsync error: error in socket IO (code 10) at clientserver.c(125) [Receiver=3.1.2]