基于卷积神经网络的拉曼光谱的单步预处理
DOI: 10.1177/0003702819888949
Abstract
拉曼光谱的预处理一般分为三个步骤:(1)宇宙射线去除,(2)信号平滑,(3)基线减法。我们证明了一个卷积神经网络(CNN)可以使用模拟数据来处理一个操作中的所有步骤。首先,合成光谱是通过随机添加峰、基线、峰和基线与背景噪声的混合以及宇宙射线而创建的。其次,对CNN的合成光谱和已知的峰进行训练。预处理的结果一般比使用基于标准化方法(二次差分、非对称最小二乘、交叉验证)的参考文献所获得的结果质量更高。从105次模拟观测中,91.4%的预测具有较小的绝对误差(RMSE),90.3%的预测提高了质量(SSIM),94.5%的预测降低了信号强度(SNR)功率。CNN预处理对聚乙烯、苯乙烯和乙醇的拉曼光谱产生了可靠的结果。研究结果为拉曼光谱的自动预处理提供了良好的概念证明。
Introduction
拉曼光谱利用由单色光源照射的样品发出的非弹性散射来获取有关分子结构的信息。在现代应用中,拉曼测量通常用化学计量学来进行分析,即用数据驱动的方法来得出关于样品的化学性质的结论。化学计量学方法的一个要求是对数据进行预处理。预处理就意味着将数据转换成一种可以直接比较测量值的形式。拉曼数据的预处理一般是通过应用数值方法在归一化前去除基线、背景、宇宙射线和噪声。3.预处理的重要性不应被低估,因为错误的预处理可能会导致错误的结论。4
所有的拉曼测量都受到背景辐射的影响。背景可能是光源的影响,难以屏蔽样品周围的材料或拉曼散射,如显微镜载玻片、缓冲溶液、培养皿或微流控系统。背景光谱可以单独测量,并通过减法手动去除。一种自动化的替代方法是定义一个损失函数,并应用一种优化算法来最小化背景的影响,如单纯形搜索算法。5
荧光是分子被激发到更高能量的状态并发射这种能量作为光的结果。荧光添加的光作为拉曼光谱基线的偏置。这个基线的形状是平滑曲线,可以比拉曼散射强很多倍。去除基线的一种流行方法是对频谱下的一个多项式进行迭代拟合。6-8另一种有用的方法是应用迭代加权平滑器,它创建一个忽略频谱峰值的曲线拟合。9 Schulze等人发表了一篇关于基线校正方法的综合综述,总结了许多已知的技术,并对它们的优缺点进行了讨论。10
宇宙射线在拉曼光谱中随机出现为尖锐的峰。当来自外部源的能量大于测量信号的粒子击中光谱仪时,宇宙射线就会了。处理宇宙射线最常见的方法是从拉曼光谱中获得多个观测结果,这样就可以被探测到和去除异常值。这个过程可以通过对频谱的第二个差异应用一个阈值来自动化。11
所有的测量值都包括随机变化。拉曼光谱也不例外,因为这个过程本身是随机的,可以用泊松分布来建模。因此,通常做法采用平滑滤波器。应用于拉曼光谱的最标准的光滑剂之一是萨维茨基-戈雷滤光片。12另一个流行的平滑器是惠特克平滑器(非对称最小二乘)与交叉验证的组合。13.交叉验证的目的是为了提高过滤器的客观性。3
近年来,基于多元分析的方法在预处理领域中变得越来越普遍。扩展乘法散射校正(EMSC),是一种方法,执行一个回归对一组光谱观察到一个共同的背景。14其他例子是基线去除使用最小二乘拟合和主成分分析(PCA),15奇异值分解(SVD)通过删除基线分解数据集16和过滤正交信号校正(OSC)通过删除变化的光谱正交的一些参考。17此外,为用于分离光谱成分而设计的带陷阱熵最小化(BTEM)可以用于从背景中分离样本光谱。尽管多变量分析功能强大,但需要许多观察,但不能总是提供,例如当活样本正在调查时提供。
本文提出了一种可以在模拟数据上进行训练的卷积神经网络(CNN)来对拉曼数据进行预处理。深度学习和神经网络在化学计量学中的应用已经被证明对模式识别等问题有用,1,19-21,但据我们所知,还没有对拉曼光谱的全面预处理。Schulze等人介绍了一种基于神经网络的基线校正方法,使用固定峰值位置的单一退化谱,随机基线、噪声和峰值强度变化。该方法优于所有用于比较的方法,10然而,该方法后来被基于PCA的方法22,其中使用不同的网络架构,但相似的训练条件。
我们提出了一个基于随机峰值位置训练的神经网络,具有随机峰值强度、背景和噪声强度。此外,我们建议宇宙射线和随机背景谱包括在训练数据中被删除。该网络应该被训练来处理多个观测,并对观测集进行信号减少,以实现拉曼光谱的最佳恢复。它成为一个更复杂的训练情况,需要更多的训练数据,但结果应该是在训练数据范围内的光谱的一般预测器。提出一种基于模拟数据的方法的原因是,通过实验收集具有所需的变化和样本量的测量数据将是一项巨大的工作。每项测量都必须由专家处理,为监督学习准备数据。处理过程必须是完美的,因为任何系统错误将使用CNN学习。对于模拟数据,监督学习所需的信息是不需要处理的。