nextDenovo2的简明使用

最新推荐文章于 2025-05-28 23:18:08 发布

peacezha

最新推荐文章于 2025-05-28 23:18:08 发布

阅读量967

点赞数 19

分类专栏：基因组组装文章标签：学习 java python linux

本文链接：https://blog.youkuaiyun.com/weixin_45898964/article/details/138911449

版权

基因组组装专栏收录该内容

3 篇文章

订阅专栏

介绍

NextDenovo 是一个基于字符串图的从头汇编器，用于长读取（CLR、HiFi 和 ONT）。它使用类似于 canu 的“先校正后组装”策略（PacBio HiFi 读取没有校正步骤），但需要的计算资源和存储要少得多。组装后，每基精度约为98-99.8%，要进一步提高单基精度，请尝试NextPolish

下载

环境

PyPython（支持 python 2 和 3）：

Paralleltask pip install paralleltask

安装

 wget https://github.com/Nextomics/NextDenovo/releases/latest/download/NextDenovo.tgz
tar -vxzf NextDenovo.tgz && cd NextDenovo

从源代码编译

 git clone git@github.com:Nextomics/NextDenovo.git
 cd NextDenovo && make

测试文件(可以直接做简单的测试运行)

nextDenovo test_data/run.cfg

使用

1.准备input.fofu数据

ls reads1.fasta reads2.fastq reads3.fasta.gz reads4.fastq.gz ... > input.fofn

2.创建run.cfg文件

cp doc/run.cfg ./

3.运行

nextDenovo run.cfg

4.结果

序列文件：01_rundir/03.ctg_graph/nd.asm.fasta

信息文件：01_rundir/03.ctg_graph/nd.asm.fasta.stat

run.cfg文件的参数

[General]
job_type = local
job_prefix = nextDenovo
task = all
rewrite = yes
deltmp = yes
parallel_jobs = 20
input_type = raw
read_type = clr # clr, ont, hifi
input_fofn = input.fofn
workdir = 01_rundir

[correct_option]
read_cutoff = 1k
genome_size = 1g # estimated genome size
sort_options = -m 20g -t 15
minimap2_options_raw = -t 8
pa_correction = 3
correction_options = -p 15

[assemble_option]
minimap2_options_cns = -t 8
nextgraph_options = -a 1

#详细解释版本
[General]
job_type = local #作业提交类型local, sge, pbs, lsf, slurm
job_prefix = nextDenovo #作业的 prefix 标记
task = all #作业运行的步骤task = <all, correct, assemble>，correct只做校正步骤，assemble只做组装步骤，all我全都要
rewrite = yes #覆盖现有目录yes or no
deltmp = yes #删除中间结果
#rerun = 3 #重新允许未完成的作业，0=否
parallel_jobs = 20 #并行运行的任务数
input_type = raw #选择读取类型[RAW,CORRECTED]
read_type = clr # clr, ont, hifi
input_fofn = input.fofn #输入文件，一行一个文件（必须有的）
workdir = 01_rundir #工作目录
#usetempdir = /tmp/test #计算节点的临时目录

[correct_option]
read_cutoff = 1k #过滤器读取长度
genome_size = 1g # estimated genome size #估计基因组大小，用于计算seed_cutoff/seed_cutfiles/blocksize/average depth
#seed_depth = 45 #预估深度
#seed_cutoff = 0 #最小种子长度 <=0表示用bin/seq_stat自动计算
#seed_cutfiles = 5 #将种子read拆分为“seed_cutfiles”子文件
#blocksize = 10g #并行运行的块大小，将非种子读取拆分为小文件，每个文件的最大大小为“块大小”
sort_options = -m 20g -t 15 #-m缓冲区大小 -t线程数
minimap2_options_raw = -t 8 #用于查找raw reads之间的重叠
pa_correction = 3 #并行运行的已矫正任务的数量
correction_options = -p 15

[assemble_option]
minimap2_options_cns = -t 8
nextgraph_options = -a 1