今天用GTDB-tk注释了我的几百个bin,结果一坨
family水平的都有大量不可读的注释
因此,尝试用BAT做注释,BAT是CAT软件中的一个部分。
CAT:contig稳健物种分类_cat软件 物种分类-优快云博客
使用
要下载数据库文件,请在 tbb.bio.uu.nl/tina/CAT_pack_prepare/ 上找到最新版本,下载并解压,然后就可以开始了!
tar -xvzf 20240422_CAT_nr.tar.gz
已经有prodigal文件,跳过prodigal直接diamond
~/CAT_pack/CAT_pack bins -b ~/bin -d ~/20240422_CAT_nr/db -t ~/20240422_CAT_nr/tax/ -s fa -n 180 -r 3 -f 0.5 --no_self_hits --block_size 200 --compress --top 11 -p ~s/out.BAT.concatenated.predicted_proteins.faa
由于我发现BAT自身运行diamond特别慢,不知道为什么,我们可以跑完diamond之后再运行BAT
prodigal -a ../797MAGs.fasta -p meta -o out.BAT.concatenated.predicted_proteins.gff -f gff -a out.BAT.concatenated.predicted_proteins.faa
diamond blastp -d ~/20240422_CAT_nr/db/2024-04-23_CAT_pack.dmnd -q out.BAT.concatenated.predicted_proteins.faa --top 11 --matrix BLOSUM62 --evalue 0.00001 -o ./out.BAT.concatenated.alignment.diamond -p 180 --block-size 24 --index-chunks 1 --tmpdir ./
~/CAT_pack/CAT_pack bins -b ~/bin -d ~/20240422_CAT_nr/db -t ~/20240422_CAT_nr/tax/ -s fa -n 180 -r 3 -f 0.5 -p ~s/out.BAT.concatenated.predicted_proteins.faa -a out.BAT.concatenated.alignment.diamond
~/CAT_pack/CAT_pack add_names -i out.BAT.bin2classification.txt -o bin_tax.txt -t ~/20240422_CAT_nr/tax/ --only_official