核磁共振数据分析自动化

核磁共振中的自动驾驶

摘要

核磁共振数据分析的自动分析在过去六十年中一直是一个备受期待的目标,对于其他任何分析技术而言也是如此。随着硬件、脉冲序列和自动化技术的进步,核磁共振的应用拓展到了新的研究领域,并提高了数据通量,因此对自动化的需要也日益增长。

完全的自动分析是一项值得追求但极具挑战性的任务。然而,在人工智能、即时通信和大数据的时代,这场探索似乎仍局限于一次只使用一种技术(无论是NMR、MS、IR、UV还是其他技术),而大多数实验室的实际状况是同时配备了多种类型的分析仪器。利用互补技术(例如MS和NMR)进行数据整合、验证和结构解析是一种理想的目标,但如果手动完成则非常耗时,因此有必要采用

自动化需要为用户完成繁重的工作,以使该方法对科学家具有吸引力。

许多可在自动化下实施的决策和工作流将依赖于与理解分析数据的数据库进行双向通信,因为不仅需要查询这些数据库,还要尽可能以自动方式不断扩展它们。这些数据库的设计、建立以及内部数据的分类方式将决定可以实施哪些工作流。

引言

将自动化方法应用于分析问题的解决,是与核磁共振发展并行的一项努力。[1, 2]这一领域的进展因具体应用领域的不同而取得了不同程度的成功。尽管在蛋白质领域自动归属已取得良好效果,[3]但小分子化学空间中的化学多样性(本文关注的重点)使得该任务更具挑战性。当涉及完整结构解析时,在许多情况下,除非脉冲序列和/或硬件取得进展,否则自动化任务将无法实现。[4]

核磁共振数据分析的自动化[5]不仅由经济原因驱动,而且是为了能够有效且及时地获取相关信息。在许多情况下,它将使人们能够获取那些通过人工操作难以发现或极难提取的数据。即使被视为理所当然的峰提取步骤,对人工操作者来说也具有挑战性。

可以通过诸如峰解卷积等重新处理方法来揭示这些隐藏数据。利用主成分类分析进行非靶向分析可以解析复杂混合物,通过评估非共价相互作用来验证小分子与蛋白质之间的相互作用,[6]未知化合物结构则可通过结合多种算法,利用核磁共振实验相关性生成评分结构来阐明。[7]

另一种挑战是由大量数据的生成所带来的,而新一代台式核磁共振仪器的出现只会加剧这一情况。此时,自动化方法至关重要,不仅可确保错误被及时发现和纠正,还能确保所有数据都被正确地重新处理、分析、报告和采集。

核磁共振谱分析的自动化

第一个目标是完全自动化分析1H 核磁共振数据,为了直观展示这一点,可将所需步骤分解为图1中详细说明的内容。所示的工作流程具有足够的通用性,大多数自动化工具在处理一维和二维核磁共振数据集时都会采用类似的方法。

退一步来说,核磁共振数据分析所依赖的“三要素”是:化学位移、积分和耦合常数。它们对于正确解读核磁共振数据都至关重要,但如果其中第一项出现错误,另外两项可能会立即受到影响。因此,采用能够使后续分析有意义的峰提取方法至关重要。

化学位移通过峰提取获得,即使对于纯化合物的1H 核磁共振这种简单情况,这也可能是一项具有挑战性的任务。许多因素都会产生影响,即使忽略潜在的数据采集问题,例如:信号重叠、不同信号强度分布(如溶剂和残留溶剂与化合物峰之间的差异)以及低分辨率等。因此,实现这第一步的自动化可能具有挑战性。

目前还没有一种通用的方法能够解决上述问题,但解卷积方法[8, 9]在许多情况下可以提供一定程度的帮助(只要不涉及完全重叠的信号)。一个实际的例子如图1所示,经过去卷积后,便能够正确地确定信号的多重性。

在时域或频域上改进现有或开发新的去卷积核磁共振数据方法所投入的努力,对于实现更可靠的自动化至关重要。在开发新的去卷积方法或优化现有方法时,需考虑以下一些因素:

  • 能够对1D和二维核磁共振谱进行去卷积
  • 计算速度快,这一点在当前几乎至关重要,不仅因为可能产生大量数据,还因为科学家在提高生产力方面的用户期望。这一因素无论是在学术还是工业环境中都不能低估。
  • 可重复性:对同一样品或在相同硬件、溶剂和温度条件下采集的相似样品进行去卷积应得到相同的结果。
  • 定量性:必须保留积分信息
  • 均质结果:对所有峰形表现一致,无论是宽峰或尖锐峰,以及弱峰和强峰都应具有相同的性能。

在去卷积和峰提取步骤之后,结果将用于辅助自动分类子程序,使每个峰都根据一组规则被相应地标记。[10]这将有助于整理常规 1H NMR谱中所包含的大量信息。最终,将开发出专门用于理解NMR谱上每一个峰含义的算法。这些算法不仅会采用纯粹的地理位置方法,例如,在DMSO溶液中出现在3.30 ppm处的峰必定是水。当然,还需要更深入的分析,虽然位置上的灵活性已经很容易实现,但还需结合峰形、峰对称性、峰与其他峰的峰比例、常见残留溶剂的温度与化学位移之间的关系等信息。下一步是教会工具识别每个峰可能是什么,它是溶剂吗?属于我们的化合物吗?是杂质吗?还是伪影?可以引入更多标签,以充分表征NMR谱上每个峰所代表的内容。

自动峰 picking 及后续的峰自动分类能够实现工作流程中的下一步:确定哪些峰应被聚合在一起,以归属于同一个或同一组原子,从而形成多重峰。这些多重峰是大多数科学家最为珍视的信息,因为它们的报告构成了实验描述、期刊发表、数据库和专利的核心内容。因此,以完全自动化方式获得具有代表性的多重峰变得至关重要。

对于“什么构成一个有意义的多重峰?”这一问题,可以回答为:它是一组包含完整耦合、化学位移和积分信息的峰,用于表征一个质子。因此,能够自动识别这些多重峰的方法非常值得期待。

有许多不同的方法可用于辅助识别单个多重峰,其结果是否理想取决于它们在模式识别方面的表现。例如,我们可以从图3中看到,根据是否执行峰解卷积步骤,得到的结果有所不同。该任务的难度可能从显而易见到无法解决不等,而造成困难的主要原因之一再次是信号重叠。在部分重叠的情况下,仍然可以找到解决方案,[11]但在这个方向上还需要付出更多努力,才能实现该步骤的完全自动化。目标是建立一个稳健的系统,能够确定给定1H NMR谱中所有质子的各个多重峰。

正是在提取核磁共振数据中所包含的原子核数量信息时,利用并行获取的大量分析信息才有意义。例如,质子总数可以通过高分辨质谱数据计算得出,这在许多开放访问环境中已成为常规操作。在此阶段,来自不同来源的信息流有助于简化分析工作,无论如何,最终结果将是所有数据的整合,并将这些数据关联到一个化学结构上。

启动复杂自动化流程所需的所有工具现已准备就绪,因此图4中详述的工作流程将无需任何人工干预即可运行。该流程从样品提交环节开始,这一步骤至关重要,因为后续的自动化均依赖于每个样品所使用的通用标识符。所提交样品的标识符必须详细填写在任意文本字段中,以便不仅能够解析到包含结构与标识符链接关系的数据库,还能解析到其他分析数据仓库,以检查是否存在属于当前研究样品的额外数据。这些数据可能在后续分析中至关重要,具体取决于需要执行的测试类型。一旦报告提交给用户,该报告将被保存至数据库;如果对应化合物的电子实验记录本(ELN)页面已关闭并签署,并且该化合物已完成注册,则会触发将完整的已分析数据集保存至数据库的步骤,用于未来的比较和报告。

示意图0

示意图1

示意图2

所述通用工作流程将改变当前从纯手动分析到完全自动化方法的数据分析范式

例如在图4中提到的“所需测试”中,可以定义许多测试,列举部分如下:

  • 报告生成
  • 自动结构验证
  • 自动结构解析
  • 定量,包括效价或浓度
  • UV/MS/NMR纯度比较
  • 时间过程数据分析:反应监测、降解
  • 动态研究:交换过程研究
  • 理化性质测定

更高级的协议可以被设计出来,并将在学术和工业环境中变得至关重要。例如,评估分子间氢键的存在是一种简单的检测方法,可以在数据采集、分析和报告方面轻松实现自动化;代谢组学数据的重新处理与分析仅仅是自动化的两个示例,这些自动化可带来显著的时间节省。为了实现分析工作流程,将设计一个方程管理器,用于利用从多组实验中提取的化学位移、耦合常数和积分信息,并以对最终用户有用的指标进行报告。该方程管理器将提供所需的灵活性,使得即使复杂的方程也可以直观的格式输入,并将变量与前述的期望观测值相关联。

分析数据库

数据库在本文所讨论的所有部分中都起着至关重要的作用。必须确保所纳入的数据得到正确分类,首先应保证所存档的信息具有意义。至关重要的是,需先识别并排除任何搜索结果中的溶剂峰,同时将此信息作为记录相关元数据的一部分进行保存。同样的原则也适用于潜在的杂质、伪影以及谱中包含的任何其他不希望出现的信号。

数据库填充是一项耗时且繁琐的任务,这正是设计完全自动化方式来扩展数据库的主要动机。通过遵循与图5类似的过程,起始点将是少量的手动指定。通过跟踪合成路线的发展,随后便能够以极少或无需人工干预的方式纳入大量数据,此外,数据可以自动验证,并当场决定哪些数据集应自动记录到数据库中,哪些应由专家进行审查。

为了实现数据挖掘以及创建复杂报告范式的能力,数据库表的设计必须能够实现记录中不同字段之间的连接与关联。这一功能意味着数据库可以引入并“理解”产物与前体、主化合物与杂质等概念。还必须能够使用分层标签,以便将记录分配到不同的项目以及项目中的各个阶段。通过这种方式对数据进行分类,例如,可以生成包含某一条特定合成路线的所有杂质及其分析数据报告的报告。此类报告的编制可能需要科学家花费数天甚至数周的时间,因此任何能够简化或自动化该流程的改进都是理想的结果。

数据库中包含的信息不仅用于报告和数据挖掘。确保将纳入数据库的核磁共振归属用于提高未来预测的质量,从而促进任何结构确证或解析工作,这一点至关重要。

预测数据库的自动填充可以被视为一个“危险”的步骤——这是有道理的,因为错误的结果会传播并成为错误的根源。支持这一做法的观点是,尽可能充分利用任何实验室产生的核磁共振数据。为了标记可疑情况,可以开发一种统计方法,通过该方法可将可疑归属提交给管理员注意,并进行纠正或确认。

此阶段需要强调的是,为了对预测质量产生影响,并不需要完整的指派。仅需少数几个指派即可影响后续核磁共振预测的质量。因此,即使以自动方式逐步添加通过自动方式完成的指派,也会对预测质量产生积极影响。

有一个关键点,即用户之间的信息交换,该领域的任何努力都应遵循让信息自由流动的理念,因此以扁平格式导入和导出数据库记录应被优先考虑。该标准的定义应由社区主导,并由软件开发者实施。这将促进不同研究团队和机构之间的数据交换,进而创建规模更大的数据存储库。

结构确证

随着核磁共振(以及质谱)样品采集的自动化发展,检查所产生的所有数据已成为一项挑战,本应促使自动化分析得到更广泛的应用。但由于化学实验室的标准操作方式,由于多种原因,这一设想从未实现,主要原因涉及人们对这类系统应如何运作的认知以及一些正在解决的技术难题。实现核磁共振数据自动化验证的主要障碍包括:

  • 溶剂峰的识别
  • 活泼质子的存在
  • 信号重叠
  • 高度依赖核磁共振预测
  • 缺乏化合物前体的信息
  • 次级物质的存在(例如旋转异构体)
  • 高水平的杂质

许多这些问题已经通过不同的方式得到解决,[10, 14-17]但杂质的存在、信号重叠以及未利用母体化合物的信息似乎是目前最难克服的障碍。

可以说,化学家所进行的大多数常规结构确证决策都是基于以下方面:

  • 反应物和产物之间的化学位移变化
  • 在许多情况下对积分值进行“创造性”解释
  • 在预期位置出现的新峰
  • 以及最重要的是对所研究体系的先验知识。

在这些情况下,科学家可能需要检查来自外部来源(原始数据不可用)、高通量系统或反应优化工作的数据。所进行的检查将仅包括对数据的目视检查,而不进行进一步分析。

从概念上讲,上述的目视检查并没有任何问题,原因在于大多数情况下用户对系统具有先验知识。正因如此,任何自动化解决方案都难以在同等条件下与科学家竞争。创建验证系统的主要目标,就是构建一个能够“获取”组织档案中已有信息的解决方案。

最初以回顾性方式,通过分析已获取并完成指派的数据,但最终将发展为实时过程。该系统将以定向方式构建,首先从已知包含高质量数据的地方收集数据,例如来自研发团队或由核磁共振专家完成指派的数据。这部分初始数据将用于丰富预测数据库,并自动检查与其反应前体和产物相关的数据,逐步建立起围绕所有化学反应的完整图景。通过这种方式,可以非常高效地快速扩展已有指派的化合物知识。为实现这一点,需要一个电子实验记录本系统,能够追踪分析数据的存储位置,以便对其进行重新处理和分析。在此阶段,自动系统将查看所有相关化合物并进行指派,仅当某个化合物在结构上与其前体相差过大时才停止。

在许多情况下,需要以更加主动的方式行动,这在研发新型产品的研究/发现环境中尤为合适。根据不同行业可以设计不同的方法,例如,在药物发现领域,已知药物化学家在设计新化合物时会使用一些优选的化学骨架。[18]这提供了一个良好的起始点:通过对这些初始骨架进行指派,可以相对容易地跟踪它们在相应核磁共振谱上的变化,因为这些骨架正在被逐步“扩展”。因此,可以设计一种自动系统来收集这些信息,该系统的起点是专家完成的指派,然后在电子实验记录本页面中“爬取”,直到找到最初已被指派的起始骨架;从此处开始,自动系统将自动完成后续的指派、验证和重新处理结果的数据存储。那些质量足够好的结果,即在验证步骤中达到一定匹配标准的结果,将被添加到验证数据库中,从而实现数据库的自动扩充,并提升预测能力。

同时在下一轮中更加准确。该策略还通过自动执行数据验证并将其纳入数据库,解决了前述缺乏所研究系统先验知识的问题,从而确保系统以研究团队所需的速度进行学习,并将专家资源集中在最需要的领域。

如果分子在连续反应中发生显著变化,将触发两个工作流:第一个工作流用于映射这些变化发生的位置,从而清楚地了解知识上的“空白”所在;第二个工作流会按设计要求系统向仪器请求获取二维核磁共振数据,以帮助完成所提交化合物的自动归属。

目前的重点是自动归属,迄今为止小分子中的所有自动归属方法都集中在结合1H、HSQC和核磁共振预测来进行。然而,在考虑新结构时,现阶段依赖核磁共振预测并不理想;在这方面,已有研究报道了一种专注于自动分析核磁共振数据的方法。[19]通过将努力集中在完善自动归属算法的方向上,将有可能实现图5中提出的工作流程等方案,但主要挑战再次在于如何使自动峰 picking 对核磁共振数据集更加可靠,尽管已开发出许多不同方法,但这仍然是一个有待解决的挑战。[20-23]

有一点特别重要,即开发和使用脉冲序列或采集后技术,以实现计算机的快速分析。例如,DQF‐COSY 对人工操作而言易于解释,但计算机算法则难以处理。在这种情况下,不仅需要单一实验,还需要多种实验的组合。最明显的例子是 HSQC‐TOCSY,这对人工操作来说解释起来很繁琐,但对于一个编写了适当规则的系统而言,分析却是简单的任务。

此时,创建前述的决策工具就成为一种需求。这些工具将根据分析结果,确定接下来可能需要运行的实验类型。例如,从图5所示的工作流程来看,如果在电子实验记录本中输入的起始反应物被识别为一种新型骨架,该工具在提交至核磁共振仪器时,会将所需的一系列指令发送回仪器,从而选择并采集一组预设的二维核磁共振实验。许多其他此类决策工具的应用也将成为常规工具,例如:

  • 如果信噪比过低或定量结果显示误差较大,则自动增加扫描次数;
  • 如果验证步骤失败,则采集额外的数据,如HSQC、COSY;
  • 如果怀疑存在旋转异构体,则进行变温实验;
  • 如果检测到(或从质谱数据怀疑)质子贫乏结构,则运行1H‐15N HMBC;
  • 在进行NOE类型实验之前,先运行反转恢复实验并自动计算T1;
  • 如果发现结构在预测数据库中表示不充分,则采集完整的二维核磁共振数据。

创建这些决策工具将带来明显的好处:充分利用机器时间,准备好所需实验以供人工分析,实现数据库的自动创建和报告的自动生成,仅举几例。

自动结构解析(ASE)

自动解析结构不仅是核磁共振波谱学家的目标,也是所有分析化学领域共同追求的目标。[2]特别是在核磁共振领域,人们已在此方向上投入了大量努力。[7, 24,25]当前这一问题的关键在于,是否可以通过随机或确定性算法来解决。[26]作者认为,许多问题只有在硬件、脉冲序列或两者均取得必要的技术进步之后才能得以解决。[4]

阻碍ASE工作流程的两个主要因素是数据准备以及需要从多个潜在候选结构中进行选择。前者在本文的讨论中已反复提及,目前迫切需要更强大的方法来对一维和二维核磁共振数据进行重新处理和初步分析,以避免长时间的手动峰挑选和数据准备工作。

结构选择对于软件工具而言是一个具有挑战性的步骤,应提供更多相关片段给专家,使其能够利用自身经验以及对体系可能存在的先验知识来解析结构。在此情况下,图形用户界面成为关键因素,用户能否交互操作、灵活处理片段,并有效跟踪假设结构,将成为决定性因素。

像本文开头所描述的峰提取与分类系统,将能够自动识别特定峰的 13C卫星峰。掌握这些信息后,在某些情况下,无需采集和解析更复杂的实验即可得出结构结论。类似地,对活泼质子的自动识别将有助于排除或考虑某些假设结构。

验证算法的改进将对ASE结果产生直接影响。对可能结构的验证是一个关键步骤,可以排除那些与其预测值或先前观察到的结构模式不兼容的结构。这将减少ASE生成的结构数量,使最终用户更容易选择候选结构,甚至直接提供一个结构。

数据库将再次发挥关键作用,如果存在已分配数据以及用于其分配的相关性,则可以查找特定的相关性模式。因此,简化片段生成过程将成为可能。

在此阶段,其他分析技术变得至关重要。例如,如果没有经验公式,开始结构解析过程就毫无意义。必须知道是否存在其他杂核,而仅靠核磁共振无法提供答案。在这方面,上述自动化系统会建议用户获取高分辨率质谱,以确定此前从未见过的化合物的经验公式。同样,质谱碎裂实验也可自动获取并分析。通过MS/MS实验,可以识别特定碎片,并利用这些信息辅助缺质子体系的分析,帮助排除假设结构。

结论

我们社会的大多数人似乎已经做好充分准备,愿意将生命托付给技术进步,这些技术将驾驶我们的汽车、帮助诊断疾病,并促进我们生活的几乎方方面面。同样的变革浪潮正在涌向核磁共振领域,我们应该欣然接受并进行合理设计。如今,我们有机会让这一技术促进并影响数十个行业、数千家企业和大学的决策,而这近在咫尺。所需要的是在核磁共振重新处理和分析领域开展更多基础研究,并加以利用这些发现和发明使得能够创建和提取出如此复杂的分析和信息。

此前在数据分析和采集方面的自动化努力催生了创新浪潮,这些浪潮塑造了各个行业,色谱法等方面的进步使利平斯基能够产生大量数据,以帮助合理化药物研发所涉及的化学空间。[27]通过向其他学科提供大量已标注的核磁共振数据,将有可能合理化化学物质性质变化的观察结果,从而推动研究方向的发展。

示意图3

示意图4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值