2021.12.04【宏基因组】|宏基因组流程搭建进展梳理

  • 分析框架
    •  

     

  • 质控
    • 过滤
      • trimmomatic PE {input.R1} {input.R2} {output.R1_PE} {output.R1_UNPE} {output.R2_PE} {output.R2_UNPE} LEADING:3 TRAILING:3 SLIDINGWINDOW:5:20 MINLEN:50 -phred33
    • 去重
      • echo \"{input.R1}\" > {params.sample_ID}_merge.fastuniq ;echo \"{input.R2}\" >> {params.sample_ID}_merge.fastuniq;fastuniq -i {params.sample_ID}_merge.fastuniq -t q -o {output.R1_uniq} -p {output.R2_uniq} -c 0
    • 去宿主
      • bwa mem -k 30 -R \'@RG\\tID:foo\\tSM:bar\\tLB:Abace\' -t {threads} {params.genome} {input.R1} {input.R2} > {output}
      • samtools view -bS {input} -o {output}
      • samtools sort {input} -o {output}
      • samtools view {input.bam_file}|awk -F '\t' '$3==\"*\"{{print $1}}'|uniq|seqtk subseq {input.R1} -> {output.nohost_file_R1};samtools view {input.bam_file}|awk -F '\t' '$3==\"*\"{{print $1}}'|uniq|seqtk subseq {input.R2} -> {output.nohost_file_R2}
    • 报告
      • gzip -c {input.nohost_file_R1} > {output.clean_R1}; gzip -c {input.nohost_file_R2} > {output.clean_R2};fastqc -o {output.fastqc_dir} --extract -q {output.clean_R1} {output.clean_R2}
  • Reads-based
    • 物种注释:MetaPhIAn
      • cat {input.clean_R1} {input.clean_R2} > {params.combine_file};humann --input {params.combine_file} --output {output.result}
    • 功能注释:Humann
      • humann --input 02.align/nohost/4a_combine.fq --output 05.Annotation/4a/
    • 物种注释:Kraken2
  • contigs-based
    • 组装:Megahit
      • megahit -t {threads} -1 {input.clean_R1} -2 {input.clean_R2} -o {output.dir} --k-min 35 --k-max 95 --k-step 20 --min-contig-len 500 -m 0.1;cp {output.dir}/final.contigs.fa {output.assembly_fa}
    • 统计Coverage:pileup
      • pileup.sh in={input.bam} ref={input.genome} out={output.covstats} overwrite=true
    • 预测:prodigal
      • prodigal -i {input.contig} -o {output.gff} -f gff -p meta
    • 特别注释
      • cd {params.sample_id};mkdir -p card dbCAN phi vfdb tcdb signalp;cd phi;/home/tanchaojun/anaconda3/envs/wgs/bin/diamond blastx -p 6 -k 1 -e 0.00001 --db /home/tanchaojun/database/phi/phi --query ../../../{input.genomic_cds} --out phi_result;cd ../vfdb;/home/tanchaojun/anaconda3/envs/wgs/bin/diamond blastx -p 6 -k 1 -e 0.00001 --db /home/tanchaojun/database/vfdb/vfdb_setA --query ../../../{input.genomic_cds} --out vfdb_result;cd ../tcdb;/home/tanchaojun/anaconda3/envs/wgs/bin/diamond blastx -p 6 -k 1 -e 0.00001 --db /home/tanchaojun/database/tcdb/tcdb --query ../../../{input.genomic_cds} --out tcdb_result;cd ../signalp;signalp -fasta ../../../{input.genomic_cds} -gff3 -mature -prefix signalp_result;cd ../dbCAN;/home/tanchaojun/anaconda3/envs/run_dbcan/bin/run_dbcan.py --db_dir /home/tanchaojun/database/dbCAN --hmm_cov 0.35 --hmm_eval 1e-15 --hmm_cpu 8 --dia_eval 1e-102 --dia_cpu 8 --out_dir ./ --out_pre dbCAN_result ../../../{input.genomic_cds} prok;cd ../card;/home/tanchaojun/anaconda3/envs/rgi/bin/rgi main -n 8 --input_sequence ../../../{input.genomic_cds} --output_file card_result --clean;
    • EGGNOG、CAZy、COG注释
      • cp {input.cds_fa} {params.sample_id}/cds.fa;cd {params.sample_id};mkdir -p eggnog COG;cd eggnog;emapper.py --cpu 20 --itype CDS -i ../../../{input.cds_fa} -o out --override -m diamond --evalue 0.001 --score 60 --pident 40 --query_cover 20 --subject_cover 20 --tax_scope auto --target_orthologs all --go_evidence non-electronic --pfam_realign none --report_orthologs --decorate_gff yes --data_dir /home/tanchaojun/anaconda3/envs/eggnog/lib/python3.7/site-packages/data;cd ../../../
      • cp scripts/anno/COG/* {params.sample_id};cp scripts/anno/eggnog/* {params.sample_eggnog};cd {params.sample_eggnog};perl emapper2anno.pl out.emapper.annotations > ../COG/eggnog.anno.xls;cd ../COG;python COG.py fun2003-2014.tab ../eggnog/out.emapper.annotations;/usr/bin/Rscript 7.eggnog.plot.R DrawAnnotationPic.R.txt COG.pdf
      • mkdir -p {params.CAZy_dir}&&cd {params.CAZy_dir};/home/tanchaojun/anaconda3/envs/run_dbcan/bin/run_dbcan.py --db_dir /home/tanchaojun/database/dbCAN --hmm_cov 0.35 --hmm_eval 1e-15 --hmm_cpu 8 --dia_eval 1e-102 --dia_cpu 8 --out_dir ./ --out_pre dbCAN_result ../../../{input.cds_fa} prok
    • 物种注释:NR(尚未加入)
  • 后期分析(尚未补充完成)
    • 物种与功能组成分析
      • Venn
      • heatmap
      • 物种、功能关系图
      • 物种组成图
    • 样本比较分析
      • UPGMA聚类分析
      • 层级聚类热图
      • PCA
      • PCoA
    • 组间比较分析
      • AMOVA
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

穆易青

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值