作者:龙炎
联系邮箱:1125570247@qq.com
时间:2016/07/25
一.ABySS的功能
分别为: 组装paired-end库(paired-endlibrary),
组装多个库(multiplelibraries),
组装长距离的mate-pair库(Long-distance mate-pair libraries),
Rescaffolding with long sequences。
1.组装paired-end库(paired-end library)
$abyss-pename=ecoli k=64 in='reads1.fa reads2.fa'
参数的说明:
in: 输入文件来读,格式可能为FASTA,FASTQ, qseq, export, SRA, SAM or BAM或者打包为gz, bz2, xz, tar文件
name: 组装的contigs将会储存在文件${name}-contigs.fa中
k:简单来说就是两条序列重叠区段的碱基数,kmer越小,越容易将不同的reads连接起来,但是拼出来的contig就会相对比较碎,kmer越大,容易将测序等引入的错误被认为不匹配,从而人为的摒弃掉了相对较多的数据,这样得到的contig就较少
C:表示运行前换目录
n:表示一个contig含有的reads的最小个数,推荐设为10
2. 组装多个库(multiple libraries):
$abyss-pe k=64name=ecoli lib='pe200 pe500' pe200='pe200_1.fa pe200_2.fa' pe500='pe500_1.fape500_2.fa' se='se1.fa se2.fa'
组装库中的文件说明:
pe200库有文件pe200_1.fa和 pe200_2.fa
pe500库有文件pe500_1.fa和 pe500_2.fa
没有mates的reads放在se文件中,single-end的reads有文件se1.fa和se2.fa
3. 组装长距离的mate-pair库(Long-distance mate-pair libraries)
长距离的mate-pair 库可用来支架的组装,mate-pair的库的名字用mp表示
$abyss-pe k=64name=ecoli lib='pe1 pe2' mp='mp1 mp2' pe1='pe1_1.fa pe1_2.fa' pe2='pe2_1.fape2_2.fa' mp1='mp1_1.fa mp1_2.fa' mp2='mp2_1.fa mp2_2.fa'
4.Rescaffolding with long sequences
$abyss-pe k=64name=ecoli lib='pe1 pe2' mp='mp1 mp2' long=long1 \
pe1='pe1_1.fape1_2.fa' pe2='pe2_1.fa pe2_2.fa' \
mp1='mp1_1.famp1_2.fa' mp2='mp2_1.fa mp2_2.fa' \
long1=long1.fa
二.K的取值影响运行的结果,可以对K优化:
实例:
使用的数据reads1.fastq和reads2.fastq可由下面命令获取:
$wget

本文详细介绍了ABySS的使用,包括组装paired-end库、多个库、长距离mate-pair库及rescaffolding。通过实例展示了如何选择合适的K值,并提供了在SGE和PBS集群系统下的并行运行方法,如设置任务调度参数和使用hostfile文件。
最低0.47元/天 解锁文章
1640

被折叠的 条评论
为什么被折叠?



