三代组装软件canu学习笔记
(2017-08-07 14:17:43)
转载▼
分类: 三代 |
1:这个组装软件起源于PBcR包含在Celera Assembler中(http://wgs-assembler.sourceforge.net/wiki/index.php/Main_Page),该软件最新版本是8.3之后便不在更新。现在被canu取代。
2:canu(http://canu.readthedocs.io/en/latest/index.html)
参加文献:Koren S, Walenz B P, Berlin K, et al. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation[J]. Genome research, 2017, 27(5): 722-736.
3:目前版本1.5
4:几个重要的参数说明:
minReadLength 用于组装的最短reads,默认1000
corOutCoverage 用于矫正的数据最小coverage,默认是40x,但实际上的数据在30X-35X之间你可以自己设置为50,60,100,当设置为1000,可以用于组装出数据中质粒,一般该参数用于宏基因组组装
contigFilter="2 1000 0.75 0.75 2"关于contig的过滤
- has fewer than minReads (2) reads, or(这个值可以设置为5)
- is shorter than minLength (1000), or
- has a single read spanning singleReadSpan percent (75%) of the contig, or
- has less than lowCovDepth (2) coverage over at least lowCovSpan fraction (0.75) of the contig
对于低覆盖数据correctedErrorRate=0.075(4.5%-7.5%或者更多)也可以大于1%
对于高覆盖度数据correctedErrorRate=0.040(4.0%-4.5%),默认The default is 0.045 for PacBio reads,也可以小于1%
如果是AT(GC)富集的样本,建议设置corMaxEvidenceErate=0.15