dbcan介绍
dbCAN是一个基于HMM和BLAST的在线工具,用于预测基因组中的碳水化合物酶基因,支持纤维素酶、木质素酶等。
run_dbcan 是用于自动注释 CAZyme 的 dbCAN3 注释工具的独立版本。 run_dbcan 工具结合了 HMMER、Diamond 和 dbCAN_sub 来注释 CAZyme 家族,并整合了 Cazyme 基因簇(CGC)和底物预测。
step1:安装
conda create --name dbcan python=3.8
conda activate dbcan
conda install dbcan -c conda-forge -c bioconda
run_dbcan -h #查看安装是否成功
step2:配置数据库
pip install requests
dbcan_build --cpus 36 --db-dir db --clean
step3:使用
3.1 默认
run_dbcan A_bin.35.faa protein --out_dir test --db_dir /share/pasteur/luosn/database/dbcan
3.2 选择diamond注释
run_dbcan A_bin.35.faa protein --out_dir A_bin.35--db_dir /share/pasteur/luosn/database/dbcan --tools diamond
step4:功能注释
# 同一个基因可能注释到不同的酶,逐行展示
awk -F"\t" 'NR>1 && $5~/^[A-Z]/ {split($5,arr,"+"); for (i in arr){if(arr[i]!~/^[0-9]/){split(arr[i],a,"_");print $1"\t"a[1]}}}' A_bin.35/overview.txt >A_bin.35.gene_cazymesID
#原diamond:k141_186734_9 - - - CBM50+GH25 1
#格式化后
#k141_186734_9 CBM50
#k141_186734_9 GH25
# 附上每个酶的功能注释
wget https://bcb.unl.edu/dbCAN2/download/Databases/CAZyDB.07302020.fam-activities.txt
grep -v '#' CAZyDB.07302020.fam-activities.txt |sed 's/ //'| sed '1 i CAZy\tDescription' > CAZy_description.txt
awk -F"\t" 'NR==FNR{a[$1]=$2;next}$2 in a {print $1"\t"$2"\t"a[$2]}!($2 in a){print $1"\t"$2"\tNone"}' CAZy_description.txt A_bin.35.gene_cazymesID > A_bin.35.gene_cazymesID_description