基因拼接质量评估的新标准-优快云博客

概要：

背景：基因拼接器使得近来的基因学革命成为可能，拼接器把测序机器得到的DNA片段“read”拼成完整或者近乎完整的基因序列。虽然这个领域已经被研究多年，大量的拼接工具涌现，评估和比较拼得基因序列的质量仍然依赖于不一定得得到的相互独立的标准，如手动拼接的基因，或者独立得到的mapping data。获得黄金标准的代价高昂，而且只覆盖了基因的一小部分，这限制了将其用于新产生的基因。因此我们介绍一种评估从相同read集合产生的拼接的质量的de novo 概率度量方法。我们评估拼接器产生的拼接的质量，通过计算从拼得的序列产生测序的read的条件概率。我们度量方法的关键是真正的基因序列会使得评分最高，而别的普遍使用的度量却不行。

结果：我们证实了用我们的方法计算de novo得分能被快速、准确地计算，即使是用于很大的数据集，通过从一个相对较小的reads集合中计算得分。为了证明我们打分方法的优势，我们用此方法计算了GAGE和Assemblation 1 assembly产生的拼接。即使不知道真实的拼接序列，我们的de novo度量能完美地与实验中用到的基于reference的评估度量匹配，并且超越传统地用于用于评估基因拼接好坏的de novo度量，比如说N 50。最后，我们强调，我们的方法可以用于优化基因拼接中拼接器使用的参数，这使得更好的拼接可能产生，即使不知道要拼接的基因的先验知识。

结论：基于似然的方法，比如我们在此提出的方法，将成为de novo拼接评估方法的新标准。

背景：

对某一组织的基因测续对生物学家了解此组织的功能和进化有重要意义。因为现代的测序技术只能读出基因的小片段，称为read，获得整个序列是困难的。事实上，这些小reads，（一般短于几千碱基），能拼接成百万甚至亿万碱基对长度的基因，这不是显而易见的事情，在测序技术的早期，一直是研究者激烈讨论的问题。被称为基因拼接器的算法和数据模型的发展，使得人们能够从测序工具产生的数据片段中重建起近乎完整的基因序列表达，这是基因革命中极其重要的部分。尽管在过去30年中测序技术和拼接算法中产生了巨大进步，基因拼接仍然是一个非常困难的计算问题。就最简单的事情来说，现在没有任何拼接器能够完整和正确地重建一个组织的基因组。相反，拼接器的输出包含一系列联续的序列片段（contigs)，这些片段可以进一步排序和组织成scaffolds，它们代表着contigs的相对位置，而在基因序列上，它们之间可能存在gap。

拼接问题的理论分析，通常定义为在一个合适地构造的图中的优化问题，证明了拼接是NP-hard，比如，寻找合适的最优解可能需要对指数数目的可能解的穷尽搜索。基因拼接的困难在于大多数基因中都存在着重复的DNA片段。比测序的read长度更长的重复片段（repeats）将导致重建基因时的多义性---从同一个reads的集合可能产生多种不同的基因。

结果，当前拼接算法的实际执行中，只能得到实际基因的一个近似解，要么包含错误，要么返回的是些片段，要么二者兼而有之。理想条件下，在一个基因实验中，进行拼接之后，应当对拼得的序列进行小心的手工修正，来更正其中数以千计的错误，以及填补已拼接的contigs之间的间歇（gap）。尽管一个完全完整和经过证实的基因序列很有价值，来完成一个完整的实验已得到这样的基因序列代价太高昂，只有一些高优先级的基因才进行了这些实验。现今这些测序的基因都是自动重建的，处于草稿的阶段。这些基因的质量不确定，从中得到的结论可能和在它们原始序列上进行实验得到的结论冲突。

因此，评估一个拼接器产生的拼接的质量是非常重要的，不仅利于后续的分析，而且使得研究者能从迅速增长的基因拼接器中选出最合适的。尽管当前的基因拼接器的质量大大提高，没有任何拼接器能在所有拼接任务中比其他拼接器做的都好。正如最近的拼接比赛所显示的，基于特定数据的特定特征，被拼接基因的结构以及之后的（downstream）分析过程的特定需要，不同的基因拼接器表现各有所长。而且，从比赛中可以感受到，评估一个拼接的好坏是存在内在困难的。更特殊的是，所有的拼接器都寻求在contiguity(产生的contigs的大小)和结果序列精确性的一个平衡。而即使存在一个黄金准则，比如，已知真实基因序列的情况下，评估这样一个平衡也是很困难的。在一般的情况下，一个基因组的真实的序列是不知道的，验证过程必须依赖其他的信息来源，比如从mapping实验中独立得到的信息。但是这样的信息经常得不到，因为与测序急剧降低的成本相比，mapping实验的代价过高。更一般的情况是，只通过测序数据，依赖de novo的方法来验证，这包括一些全局的合理性检查“sanity check"和内在的一致性度量，比如评估reads和拼接序列上mate-pairs的位置信息。

上述的检验方法能找到很多拼接的序列的不一致性和错误，为之后的检验和优化实验提供了有价值的信息，但是在比较一系列拼接器对同一数据集产生的拼接质量好坏时很难以使用。比如说，在评价不同拼接器时，即使真实基因序列已知，而且各个拼接器产生的拼接与真实基因序列的差异也是已知的，在某种程度上，仍然没法权衡单个的核苷酸错误、小的插入、删除错误与大的结构错误孰轻孰重。而且，虽然最近可视化技术的发展，比如Narzisi et al的FRCurve，使得拼接的contiguity和correctness的平衡一目了然，还没有成熟的方法能合适地衡量众多评估拼接质量的参数的重要性，这些参数中许多提供了冗余的信息。

在这里我们提供了一种客观的、全局的方法来评价从某一相同数据集中产生的拼接的质量，我们的方法把拼接的质量定义为似然度，似然值用以描述从给定的拼接产生观察到的reads的概率，这个值只需要对拼接过程进行大致的建模就能准确的评估。这个基本思想最早是在90年代Gene Myers的论文中提出的，他认为一个read集合的正确拼接必须与数据产生过程的统计特征关于KolmogorovSmirnoff 检验统计一致。相同的基本思想在Celera拼接器的到来统计（A-Statistic）中进一步使用来识别折叠重复（collapsed repeats），并成为准物种（ShoRAH,ViSpa),系统生物学，多用途拼接器和最近的基因评估框架的的目标函数。

我们的论文中，我们将详细描述考虑测序错误和mate-pair 信息的数学模型，并且显示实际中模型是如何计算的。我们同时展示了，用我们的de novo 概率模型计算出的拼接工具的排名与Assemblathon和GAGE比赛中产生的排名是一致的。我们的工作与最近出版的ALE和CGAL在思想上是一样的，但是我们提供了若干有实际价值的扩展。

第一，我们提出和评估了一个基于采样的协定来计算拼接的得分，这使得快速对拼接质量进行评估成为可能，使得我们的方法能用于较大的数据集。

第二，我们根据似然得分，评估了未拼接reads和污染的DNA对拼接的相对排名的影响。

最后，我们证明了把我们的概率质量度量作为目标函数来进行拼接程序的参数优化是有用的。