介绍
NextDenovo 是一个基于字符串图的从头汇编器,用于长读取(CLR、HiFi 和 ONT)。它使用类似于 canu 的“先校正后组装”策略(PacBio HiFi 读取没有校正步骤),但需要的计算资源和存储要少得多。组装后,每基精度约为98-99.8%,要进一步提高单基精度,请尝试NextPolish
下载
环境
PyPython(支持 python 2 和 3):
- Paralleltask
pip install paralleltask
安装
wget https://github.com/Nextomics/NextDenovo/releases/latest/download/NextDenovo.tgz
tar -vxzf NextDenovo.tgz && cd NextDenovo
从源代码编译
git clone git@github.com:Nextomics/NextDenovo.git
cd NextDenovo && make
测试文件(可以直接做简单的测试运行)
nextDenovo test_data/run.cfg
使用
1.准备input.fofu数据
ls reads1.fasta reads2.fastq reads3.fasta.gz reads4.fastq.gz ... > input.fofn
2.创建run.cfg文件
cp doc/run.cfg ./
3.运行
nextDenovo run.cfg
4.结果
序列文件:01_rundir/03.ctg_graph/nd.asm.fasta
信息文件:01_rundir/03.ctg_graph/nd.asm.fasta.stat
run.cfg文件的参数
[General]
job_type = local
job_prefix = nextDenovo
task = all
rewrite = yes
deltmp = yes
parallel_jobs = 20
input_type = raw
read_type = clr # clr, ont, hifi
input_fofn = input.fofn
workdir = 01_rundir
[correct_option]
read_cutoff = 1k
genome_size = 1g # estimated genome size
sort_options = -m 20g -t 15
minimap2_options_raw = -t 8
pa_correction = 3
correction_options = -p 15
[assemble_option]
minimap2_options_cns = -t 8
nextgraph_options = -a 1
#详细解释版本
[General]
job_type = local #作业提交类型local, sge, pbs, lsf, slurm
job_prefix = nextDenovo #作业的 prefix 标记
task = all #作业运行的步骤task = <all, correct, assemble>,correct只做校正步骤,assemble只做组装步骤,all我全都要
rewrite = yes #覆盖现有目录yes or no
deltmp = yes #删除中间结果
#rerun = 3 #重新允许未完成的作业,0=否
parallel_jobs = 20 #并行运行的任务数
input_type = raw #选择读取类型[RAW,CORRECTED]
read_type = clr # clr, ont, hifi
input_fofn = input.fofn #输入文件,一行一个文件(必须有的)
workdir = 01_rundir #工作目录
#usetempdir = /tmp/test #计算节点的临时目录
[correct_option]
read_cutoff = 1k #过滤器读取长度
genome_size = 1g # estimated genome size #估计基因组大小,用于计算seed_cutoff/seed_cutfiles/blocksize/average depth
#seed_depth = 45 #预估深度
#seed_cutoff = 0 #最小种子长度 <=0表示用bin/seq_stat自动计算
#seed_cutfiles = 5 #将种子read拆分为“seed_cutfiles”子文件
#blocksize = 10g #并行运行的块大小,将非种子读取拆分为小文件,每个文件的最大大小为“块大小”
sort_options = -m 20g -t 15 #-m缓冲区大小 -t线程数
minimap2_options_raw = -t 8 #用于查找raw reads之间的重叠
pa_correction = 3 #并行运行的已矫正任务的数量
correction_options = -p 15
[assemble_option]
minimap2_options_cns = -t 8
nextgraph_options = -a 1