Krešimir Križanović, Amina Echchiki, Julien Roux, Mile Šikić, Evaluation of tools for long read RNA-seq splice-aware alignment, Bioinformatics, Volume 34, Issue 5, 01 March 2018, Pages 748–754, https://doi.org/10.1093/bioinformatics/btx668
评估用于长度短RNA-seq拼接感知对齐工具
前言
三代测序数据的长度变长,错误率变高。本研究探索了目前可用的RNA-seq剪接对齐工具如何应对读段长度和错误率的增加。所有测试工具最初都是为短NGS读取而开发的,但有些工具声称支持长太平洋生物科学(PacBio)甚至牛津纳米孔技术(ONT)的长读段。
1 引言
目的:确定目前可用的RNA-seq剪接定位器是否能够处理第三代测序数据,即更长读段长度和明显更高错误率数据。
这种RNA-seq校准工具和管道的基准测试
- 以前在真实的和合成的Illumina reads (Engstro¨m et al., 2013)上都进行过,证明非常有帮助。
- 另一种RNA-seq比对工具的基准是对不同错误率和复杂度的合成数据进行比对(Baruzzo et al., 2017)。
- 然而,据我们所知,没有对第三代测序数据进行测试。
能够识别拼接的RNA-seq比对工具可以分为两组。
- 首先,引导剪接感知配对器使用基因组序列和已知的基因注释来计算基因或转录本丰度,但不能用于识别新的剪接连接。
- 其次,能够识别新剪接的对准器可以将RNA-seq读序列与参考基因组序列进行比对,而无需事先获得基因注释的信息。
工具:
- BBMap:唯一明确声明支持PacBio和ONT读段的工具。使用短k-mers将读段码直接与基因组对齐,跨越内含子寻找新的亚型。使用一个自定义的仿射变换矩阵来生成对齐分数;
- STAR:在未压缩后缀数组中使用序列最大可映射种子搜索,然后进行种子聚类和拼接过程。检测新的经典的、非经典的剪接连接和嵌合序列;
- GMAP:GMAP/GSNAP包的一部分,通过diagonalizetion对角化找到外显子区域,通过链接短k-mers的低聚物来细化他们,并在核苷酸水平上进行动态规划来解决不匹配、indels和内含子边界。
- TopHat2:Illumina reads最流行的对准器,实现两步方法,首先分析初始读段序列发现exon-exon链接,然后在第二步中使用它们来确定最终的序列。
- HISAT2:TopHat2的继承者。使用全局FM索引,以及一大堆小的FM索引(称为局部索引),共同覆盖了整个基因组,这种策略使得跨多个外显子的RNAseq读段能够有效对齐。
高错误率-错误纠正。
2 材料与方法
为什么使用模拟和真实数据集?
- 由于真实数据集中读段的实际来源是未知的,只能通过比对过程来估计,因此真实数据集并不最适合评估对齐工具的性能;
- 对准器的准确度和精度可以再合成数据上进行评估,但是,模拟器无法模拟真实数据集的每一个方面,有可能导致基准测试结果出现偏差。
数据集:
- 所有真实数据集由RNA转化为cDNA并在测序前扩增而成。
为了进行仿真,使用PacBio读段模拟器PBSIM;
用不同的参数模拟多个数据集,并使用不同生物体的注释转录组(酿酒酵母、黑腹果蝇和人类。由上图所示); - 为了更精确探索测试一些对准器的不佳性能,模拟一个包含很少错误的长读段数据集,可以知道对准器性能差是由于读段长还是错误率高。
- 测试重点是PacBio技术,因此拥有大量真实数据和专用模拟器(PBSIM)。
- 包含一个真实的ONT数据集。为了比对,我们使用PBSIM在黑腹果蝇上模拟了一个ONT MinION数据集,根据统计的ONT MinION R9真实数据设置参数。虽然PacBio模拟器并不完全适合于ONT MinION数据,但我们认为模拟他们的读段长度和错误配置(插入、删除和不匹配率)应该可以提供一些有用的剪接。——在进行模拟实验的时候,没有意识到一个专用的MinION读段模拟器,开始了解NanoSim,但是由于时间限制,不将其纳入基准测试。
- 利用人类染色体19模拟了额外的合成ONT MinION数据集。结果类似于第一个模拟数据集上取得的结果。
- 为了探索读段错误教程对比对的影响,使用最近认可的工具Racon对高质量的真实PacBio数据集进行了误差校正。探讨了使用外部Illumina读段的矫正和自校正。
从table1中可以看出数据集的大小和复杂性各不相同。例如,数据集2和4具有相似的大小,因为他们是使用相同的基因覆盖直方图近似值生成的,而由于MinION ONT读段平均比PacBio读段长,数据集2比数据集4包含更多的读段。所有用于创建测试数据集的数据(以及数据本身)可以通过FigShare获得https://figshare.com/projects/RNAseq_benchmark/24391。
2.1 数据集
为了生成模拟数据集,使用从