转录组组装软件
基因组组装
基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列片段(即read),并根据reads 之间的重叠区域对片段进行拼接,先拼接成较长的连续序列(contig),再将contigs 拼接成更长的允许包含空白序列(gap)的scaffolds,通过消除scaffolds 的错误和gaps,将这些scaffolds 定位到染色体上,从而得到高质量的全基因组序列 。可简单描述为:reads---->contig---->scaffold---->chromosome。
contig和scaffold
Contig是由多个reads通过组装而形成的长片段。由于测序读段较短、基因组序列通常含有较多重复序列、而且还有测序错误等原因,除了简单的基因组序列外,大部分物种的基因组序列组装都会先产生很多contig,无法一次获得完整的染色体序列。Scaffold为多条contig序列连接形成更长片段,这些contig方向和顺序已经确定,且contig间未知序列(一般用NNNN表示)的长度也获知。

01 Cufflinks
Cufflinks利用Tophat比对的结果(alignments)来组装转录本,估计这些转录本的丰度,并且检测样本间的差异表达及可变剪接。这个软件其实是个套装,包括四个部分分别命名为:cufflinks、cuffcompare、cuffmerge及cuffdiff。
使用:
cufflinks -o out -g genes.gtf hits.bam
说明:输入:基因注释,BAM文件
输出:表达值文件,以gtf格式保存 如:cufflinks-o 输出路径
(注

本文介绍了常用的转录组组装软件,包括Cufflinks、StringTie、SOAPdenovoTrans、Velvet+Oases、Trinity和SPAdes。详细阐述了各软件的原理、基本用法及特点,如Cufflinks与StringTie的算法对比,Trinity的组装流程,以及SPAdes在不同测序数据组装上的应用。
最低0.47元/天 解锁文章
1772

被折叠的 条评论
为什么被折叠?



