dbcan安装和使用

dbcan介绍

dbCAN是一个基于HMM和BLAST的在线工具,用于预测基因组中的碳水化合物酶基因,支持纤维素酶、木质素酶等。

run_dbcan 是用于自动注释 CAZyme 的 dbCAN3 注释工具的独立版本。 run_dbcan 工具结合了 HMMER、Diamond 和 dbCAN_sub 来注释 CAZyme 家族,并整合了 Cazyme 基因簇(CGC)和底物预测。

step1:安装

conda create --name dbcan python=3.8
conda activate dbcan
conda install dbcan -c conda-forge -c bioconda
run_dbcan -h #查看安装是否成功

step2:配置数据库

pip install requests
dbcan_build --cpus 36 --db-dir db --clean

官网dbcan数据库

step3:使用

3.1 默认

run_dbcan A_bin.35.faa protein --out_dir test --db_dir /share/pasteur/luosn/database/dbcan

3.2 选择diamond注释

run_dbcan A_bin.35.faa protein --out_dir A_bin.35--db_dir /share/pasteur/luosn/database/dbcan --tools diamond

step4:功能注释

# 同一个基因可能注释到不同的酶,逐行展示
awk -F"\t" 'NR>1 && $5~/^[A-Z]/ {split($5,arr,"+"); for (i in arr){if(arr[i]!~/^[0-9]/){split(arr[i],a,"_");print $1"\t"a[1]}}}' A_bin.35/overview.txt >A_bin.35.gene_cazymesID
#原diamond:k141_186734_9 - - - CBM50+GH25 1
#格式化后
#k141_186734_9   CBM50
#k141_186734_9   GH25

# 附上每个酶的功能注释
wget https://bcb.unl.edu/dbCAN2/download/Databases/CAZyDB.07302020.fam-activities.txt
grep -v '#' CAZyDB.07302020.fam-activities.txt |sed 's/ //'| sed '1 i CAZy\tDescription' > CAZy_description.txt
awk -F"\t" 'NR==FNR{a[$1]=$2;next}$2 in a {print $1"\t"$2"\t"a[$2]}!($2 in a){print $1"\t"$2"\tNone"}' CAZy_description.txt A_bin.35.gene_cazymesID > A_bin.35.gene_cazymesID_description

参考

dbcan安装和使用手册
database

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值