生物信息百Jia软件（28）：canu

最新推荐文章于 2024-10-10 15:21:14 发布

基因学苑

最新推荐文章于 2024-10-10 15:21:14 发布

阅读量759

点赞数

CC 4.0 BY-SA版权

分类专栏：生物信息软件

本文链接：https://blog.youkuaiyun.com/xxxie_/article/details/99240060

本文介绍了三代测序拼接工具canu，它源于Celera Assembler，适用于pacbio和nanopore数据的纠错和拼接。canu通过数据纠错、修剪和组装三步实现序列拼接，并提供了简单易懂的参数选项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欢迎订阅WX众号：基因学苑，更多精彩内容等你发掘！
基因学苑Q群：32798724
上一次介绍了三代拼接工具falcon，但是falcon这款无论是从安装还是使用都比较麻烦，对于新手是一个很大的考验，这里次我们介绍一款更好用的三代拼接工具canu。canu这款软件来自于经典的 Celera Assembler。celera最早用于人类全基因组计划，后来随着二代测序数据的普及，这种基于overlap的方法逐渐被基于kmer的方法取代，但是虽则三代测序的流行，这些工具又焕发了新的生命。如果没听过Celera的大名，刚快bing一下“Celera Genomics”。

应用场景
1、手里有三代pacbio测序的数据，fastq格式或者fasta格式，需要连接成更长的基因组序列。
2、有nanopore测序数据，需要拼接成更长的基因组。

软件官网
https://github.com/marbl/canu

官方文档页
https://canu.readthedocs.io/en/latest/tutorial.html

下载安装
cano的安装特别容易，从github上下载软件源代码，直接make编译就能够使用。

git clone https://github.com/marbl/canu.git
cd canu/src
make -j 32
软件使用
传统的celera软件最开始利用于一代的sanger测序以及后面的454测序数据，这些数据的特点是准确性较高，所以，直接采用基于overlap的方法就可以拼接。但是当前的pacbio后者nanopore数据，具有较高的错误率，因此，canu软件需要进行一个很重要的数据校正的过程。
这是canu软件的原理的