BAT:确定宏基因组bin的物种(GTDB-tk注释较差的时候)

今天用GTDB-tk注释了我的几百个bin,结果一坨

family水平的都有大量不可读的注释

因此,尝试用BAT做注释,BAT是CAT软件中的一个部分。

CAT:contig稳健物种分类_cat软件 物种分类-优快云博客

使用

要下载数据库文件,请在 tbb.bio.uu.nl/tina/CAT_pack_prepare/ 上找到最新版本,下载并解压,然后就可以开始了!

tar -xvzf 20240422_CAT_nr.tar.gz

已经有prodigal文件,跳过prodigal直接diamond

~/CAT_pack/CAT_pack bins -b ~/bin -d ~/20240422_CAT_nr/db -t ~/20240422_CAT_nr/tax/ -s fa -n 180 -r 3 -f 0.5 --no_self_hits --block_size 200 --compress --top 11 -p ~s/out.BAT.concatenated.predicted_proteins.faa

由于我发现BAT自身运行diamond特别慢,不知道为什么,我们可以跑完diamond之后再运行BAT

prodigal -a ../797MAGs.fasta -p meta -o out.BAT.concatenated.predicted_proteins.gff -f gff -a out.BAT.concatenated.predicted_proteins.faa

diamond blastp -d ~/20240422_CAT_nr/db/2024-04-23_CAT_pack.dmnd -q out.BAT.concatenated.predicted_proteins.faa --top 11 --matrix BLOSUM62 --evalue 0.00001 -o ./out.BAT.concatenated.alignment.diamond -p 180 --block-size 24 --index-chunks 1 --tmpdir ./ 

~/CAT_pack/CAT_pack bins -b ~/bin -d ~/20240422_CAT_nr/db -t ~/20240422_CAT_nr/tax/ -s fa -n 180 -r 3 -f 0.5 -p ~s/out.BAT.concatenated.predicted_proteins.faa -a out.BAT.concatenated.alignment.diamond

~/CAT_pack/CAT_pack add_names -i out.BAT.bin2classification.txt -o bin_tax.txt -t  ~/20240422_CAT_nr/tax/ --only_official
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值