欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!
基因学苑Q群:32798724
上一次介绍了三代拼接工具falcon,但是falcon这款无论是从安装还是使用都比较麻烦,对于新手是一个很大的考验,这里次我们介绍一款更好用的三代拼接工具canu。canu这款软件来自于经典的 Celera Assembler。celera最早用于人类全基因组计划,后来随着二代测序数据的普及,这种基于overlap的方法逐渐被基于kmer的方法取代,但是虽则三代测序的流行,这些工具又焕发了新的生命。如果没听过Celera的大名,刚快bing一下“Celera Genomics”。
应用场景
1、手里有三代pacbio测序的数据,fastq格式或者fasta格式,需要连接成更长的基因组序列。
2、有nanopore测序数据,需要拼接成更长的基因组。
软件官网
https://github.com/marbl/canu
官方文档页
https://canu.readthedocs.io/en/latest/tutorial.html
下载安装
cano的安装特别容易,从github上下载软件源代码,直接make编译就能够使用。
git clone https://github.com/marbl/canu.git
cd canu/src
make -j 32
软件使用
传统的celera软件最开始利用于一代的sanger测序以及后面的454测序数据,这些数据的特点是准确性较高,所以,直接采用基于overlap的方法就可以拼接。但是当前的pacbio后者nanopore数据,具有较高的错误率,因此,canu软件需要进行一个很重要的数据校正的过程。
这是canu软件的原理的