三代组装软件canu学习笔记

本文介绍Canu软件,一种用于三代测序数据组装的高效工具,源自CeleraAssembler,适用于长读段组装。文章涵盖Canu的最新版本、关键参数说明及推荐设置,适合从事生物信息学研究的专业人士。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

三代组装软件canu学习笔记

 (2017-08-07 14:17:43)

转载

 分类: 三代

1:这个组装软件起源于PBcR包含在Celera Assembler中(http://wgs-assembler.sourceforge.net/wiki/index.php/Main_Page),该软件最新版本是8.3之后便不在更新。现在被canu取代。

 

2:canu(http://canu.readthedocs.io/en/latest/index.html)

参加文献:Koren S, Walenz B P, Berlin K, et al. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation[J]. Genome research, 2017, 27(5): 722-736.

 

3:目前版本1.5

 

4:几个重要的参数说明:

minReadLength 用于组装的最短reads,默认1000

 

corOutCoverage 用于矫正的数据最小coverage,默认是40x,但实际上的数据在30X-35X之间你可以自己设置为50,60,100,当设置为1000,可以用于组装出数据中质粒,一般该参数用于宏基因组组装

 

contigFilter="2 1000 0.75 0.75 2"关于contig的过滤

  • has fewer than minReads (2) reads, or(这个值可以设置为5)
  • is shorter than minLength (1000), or
  • has a single read spanning singleReadSpan percent (75%) of the contig, or
  • has less than lowCovDepth (2) coverage over at least lowCovSpan fraction (0.75) of the contig

对于低覆盖数据correctedErrorRate=0.075(4.5%-7.5%或者更多)也可以大于1%

对于高覆盖度数据correctedErrorRate=0.040(4.0%-4.5%),默认The default is 0.045 for PacBio reads,也可以小于1%

 

如果是AT(GC)富集的样本,建议设置corMaxEvidenceErate=0.15

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值