kraken基于k-mer精确比对,采用最LCA投票结果快速宏基因组DNA序列进行物种注释。
Kraken2数据库至少包括3个文件
hash.k2d: 物种地图,即所有序列与物种的数据库
opts.k2d: 数据库构建的信息
taxo.k2d: 数据库的分类学信息
以上文件为快速读取,全为二进制文件。
如果仅使用kraken2,除以上三个文件外,其它的文件在空间有限下可以删除。如果要使用bracken时,仍需保留其他文件,用于构建索引等。
标准数据库构建
#下载数据库,先设置存放位置
DBNAME=~/db/kraken2/201127
mkdir -p $DBNAME
#可调线程数据,加速构建过程
kraken2-build --standard --threads 24 --db $DBNAME
标准模式下只下载5种数据库:古菌archaea、细菌bacteria、人类human、载体UniVec_Core、病毒viral
# 下载数据库,先设置存放位置
DBNAME=~/db/kraken2/201201
mkdir -p DBNAME
cd $DBNAME
# 下载物种注释,259
kraken2-build --download-taxonomy --threads 24 --db $DBNAME
# 下载非默认数据库中的真菌库 1.33G
kraken2-build --download-library fungi --threads 24 --db $DBNAME
# 批量下载,非标准数据库
for i in archaea bacteria plasmid viral human fungi plant protozoa nr nt env_nr env_nt UniVec; do
kraken2-build --download-library $i --threads 24 --db $DBNAME
done
# 确定的库建索引
kraken2-build --build --threads 24

本文介绍了Kraken2的物种注释方法,涉及数据库结构、标准构建步骤、非NCBI数据库的选择以及如何添加自定义基因组。重点讲解了kraken2-build工具及其参数,包括下载、索引构建和数据库扩充的过程。
最低0.47元/天 解锁文章
5万+





