Single-Step Preprocessing of Raman Spectra Using Convolutional Neural Networks翻译

基于卷积神经网络的拉曼光谱的单步预处理

DOI: 10.1177/0003702819888949

Abstract

拉曼光谱的预处理一般分为三个步骤:(1)宇宙射线去除,(2)信号平滑,(3)基线减法。我们证明了一个卷积神经网络(CNN)可以使用模拟数据来处理一个操作中的所有步骤。首先,合成光谱是通过随机添加峰、基线、峰和基线与背景噪声的混合以及宇宙射线而创建的。其次,对CNN的合成光谱和已知的峰进行训练。预处理的结果一般比使用基于标准化方法(二次差分、非对称最小二乘、交叉验证)的参考文献所获得的结果质量更高。从105次模拟观测中,91.4%的预测具有较小的绝对误差(RMSE),90.3%的预测提高了质量(SSIM),94.5%的预测降低了信号强度(SNR)功率。CNN预处理对聚乙烯、苯乙烯和乙醇的拉曼光谱产生了可靠的结果。研究结果为拉曼光谱的自动预处理提供了良好的概念证明。

Introduction

拉曼光谱利用由单色光源照射的样品发出的非弹性散射来获取有关分子结构的信息。在现代应用中,拉曼测量通常用化学计量学来进行分析,即用数据驱动的方法来得出关于样品的化学性质的结论。化学计量学方法的一个要求是对数据进行预处理。预处理就意味着将数据转换成一种可以直接比较测量值的形式。拉曼数据的预处理一般是通过应用数值方法在归一化前去除基线、背景、宇宙射线和噪声。3.预处理的重要性不应被低估,因为错误的预处理可能会导致错误的结论。4

所有的拉曼测量都受到背景辐射的影响。背景可能是光源的影响,难以屏蔽样品周围的材料或拉曼散射,如显微镜载玻片、缓冲溶液、培养皿或微流控系统。背景光谱可以单独测量,并通过减法手动去除。一种自动化的替代方法是定义一个损失函数,并应用一种优化算法来最小化背景的影响,如单纯形搜索算法。5

荧光是分子被激发到更高能量的状态并发射这种能量作为光的结果。荧光添加的光作为拉曼光谱基线的偏置。这个基线的形状是平滑曲线,可以比拉曼散射强很多倍。去除基线的一种流行方法是对频谱下的一个多项式进行迭代拟合。6-8另一种有用的方法是应用迭代加权平滑器,它创建一个忽略频谱峰值的曲线拟合。9 Schulze等人发表了一篇关于基线校正方法的综合综述,总结了许多已知的技术,并对它们的优缺点进行了讨论。10

宇宙射线在拉曼光谱中随机出现为尖锐的峰。当来自外部源的能量大于测量信号的粒子击中光谱仪时,宇宙射线就会了。处理宇宙射线最常见的方法是从拉曼光谱中获得多个观测结果,这样就可以被探测到和去除异常值。这个过程可以通过对频谱的第二个差异应用一个阈值来自动化。11

所有的测量值都包括随机变化。拉曼光谱也不例外,因为这个过程本身是随机的,可以用泊松分布来建模。因此,通常做法采用平滑滤波器。应用于拉曼光谱的最标准的光滑剂之一是萨维茨基-戈雷滤光片。12另一个流行的平滑器是惠特克平滑器(非对称最小二乘)与交叉验证的组合。13.交叉验证的目的是为了提高过滤器的客观性。3

近年来,基于多元分析的方法在预处理领域中变得越来越普遍。扩展乘法散射校正(EMSC),是一种方法,执行一个回归对一组光谱观察到一个共同的背景。14其他例子是基线去除使用最小二乘拟合和主成分分析(PCA),15奇异值分解(SVD)通过删除基线分解数据集16和过滤正交信号校正(OSC)通过删除变化的光谱正交的一些参考。17此外,为用于分离光谱成分而设计的带陷阱熵最小化(BTEM)可以用于从背景中分离样本光谱。尽管多变量分析功能强大,但需要许多观察,但不能总是提供,例如当活样本正在调查时提供。

本文提出了一种可以在模拟数据上进行训练的卷积神经网络(CNN)来对拉曼数据进行预处理。深度学习和神经网络在化学计量学中的应用已经被证明对模式识别等问题有用,1,19-21,但据我们所知,还没有对拉曼光谱的全面预处理。Schulze等人介绍了一种基于神经网络的基线校正方法,使用固定峰值位置的单一退化谱,随机基线、噪声和峰值强度变化。该方法优于所有用于比较的方法,10然而,该方法后来被基于PCA的方法22,其中使用不同的网络架构,但相似的训练条件。

我们提出了一个基于随机峰值位置训练的神经网络,具有随机峰值强度、背景和噪声强度。此外,我们建议宇宙射线和随机背景谱包括在训练数据中被删除。该网络应该被训练来处理多个观测,并对观测集进行信号减少,以实现拉曼光谱的最佳恢复。它成为一个更复杂的训练情况,需要更多的训练数据,但结果应该是在训练数据范围内的光谱的一般预测器。提出一种基于模拟数据的方法的原因是,通过实验收集具有所需的变化和样本量的测量数据将是一项巨大的工作。每项测量都必须由专家处理,为监督学习准备数据。处理过程必须是完美的,因为任何系统错误将使用CNN学习。对于模拟数据,监督学习所需的信息是不需要处理的。

### 图卷积网络在半监督分类中的应用 #### 半监督学习背景 半监督学习是一种利用少量标注数据和大量未标注数据来提高模型性能的学习范式。对于许多实际应用场景而言,获取大规模高质量的标注数据成本较高,因此半监督学习成为一种重要的解决方案。 #### 图卷积网络的核心思想 图卷积网络(Graph Convolutional Network, GCN)通过将传统的卷积操作推广到图结构上,能够有效地处理具有复杂关系的数据集。其核心在于如何定义适用于图结构的卷积运算,并将其应用于节点特征的学习过程[^1]。 具体来说,《Semi-Supervised Classification with Graph Convolutional Networks》提出了基于谱图理论的方法,通过对拉普拉斯矩阵进行局部一阶近似,实现了高效的前向传播算法。这种方法不仅保留了图结构的信息,还能够在计算效率方面取得良好的平衡[^2]。 #### 谱图卷积及其简化形式 原始的谱图卷积依赖于傅里叶变换,在频域中完成滤波器的设计与应用。然而,这种做法通常涉及复杂的矩阵分解操作,难以直接扩展至大型稀疏图。为了克服这一局限性,论文引入了一种切比雪夫多项式的近似方式,进一步减少了参数数量并提升了运行速度[^3]。 最终得到的形式化表达如下所示: \[ H^{(l+1)} = \sigma(\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}) \] 其中 \(H^{(l)}\) 表示第 l 层隐藏层的状态;\(W^{(l)}\) 是权重矩阵;而 \(\tilde{A}=A+I_N,\tilde{D}_{ii}=\sum_j{\tilde{A}_{ij}}\) 则分别代表增广邻接矩阵以及对应的度数矩阵[^4]。 此更新规则体现了两方面的特性:一方面它融合了来自邻居节点的影响;另一方面允许逐层调整特征表示的空间维度大小。 #### 应用实例 该框架被成功验证于多个标准基准测试任务之上,比如Cora、Citeseer 和 Pubmed 文献引用网络数据集。实验结果显示相比于其他传统方法或者简单的多层感知机架构,采用GCNs能显著提升预测精度的同时保持较低的时间开销。 ```python import numpy as np from scipy.sparse import csr_matrix from sklearn.preprocessing import OneHotEncoder def preprocess_adjacency(adj): """Preprocess adjacency matrix.""" adj_normalized = normalize_adj(adj + sp.eye(adj.shape[0])) return sparse_to_tuple(adj_normalized) class GraphConvLayer(tf.keras.layers.Layer): def __init__(self, input_dim, output_dim, activation=tf.nn.relu, **kwargs): super(GraphConvLayer, self).__init__(**kwargs) self.W = tf.Variable(initial_value=tf.random.normal([input_dim, output_dim]), trainable=True) self.activation = activation def call(self, inputs): features, support = inputs pre_sup = dot(features, self.W, sparse=False) output = dot(support, pre_sup, sparse=True) return self.activation(output) if self.activation is not None else output ``` 上述代码片段展示了构建基本图形卷积层的过程,其中包括必要的预处理步骤以及自定义Keras层的具体实现细节。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值