2021-10-16周报

利用基于时空聚类的深度学习网络模型建立北京市空气质量的多时间、多站点预测模型，并将其与反向传播神经网络(BPNN)进行比较。在整体预测中，反向传播神经网络(BPNN)、卷积神经网络(CNN)、长短期记忆(LSTM)模型和CNN-LSTM模型的下，小时预测性能依次递增，其中LSTM模型是多小时预测的最优模型。与整体预测相比，季节性预测的表现没有明显改善。对于基于空间聚类的预测，聚类2的预测总体上优于聚类1和整体预测。总体而言，无论是基于季节的还是基于空间聚类的预测都更适合改进某一季节或聚类的预测。在模型类型上，CNN-LSTM和LSTM的性能普遍优于CNN和BPNN。

数据

空气质量数据由中国国家环境监测中心收集，包括2015年1月1日至2016年12月31日北京12个国家环境空气质量监测点每小时的PM2.5、PM10、SO2、NO2、O3、CO。从中国气象数据服务中心收集的气象数据包括每小时的降水、温度、露点、压力、风速和风向(角度)。气象数据来源于离空气质量监测点最近的国家气象站。

时空数据包括3类空间数据(空气质量地面监测站点的经纬度、站点到北京市中心天安门的距离)和3类时间数据(各监测站点的季节、工作日指数和小时时间)。工作日指数使用1(周一至周五)或0(周六和周日)表示。

为了消除量纲差异的影响，提高模型的收敛速度，将所有数据通过以下Min-Max比例方程转换到[0,1]范围

评估标准

为了验证模型的泛化能力，将数据集分为训练集(前70%)和验证集(后30%)。采用均方根误差(RMSE)和一致性指数(IA)评价预测模型的性能。RMSE对观测值和预测值之间的最大或最小误差很敏感。RMSE越低，误差越小。IA表示观测值与预测值的分布相似性。IA在[0,1]范围内变化。IA越接近1，分布一致性越高。

特点

1.在空间维度上，采用Kriging插值和Moran’s I统计分析，将12个监测点分为两个聚类（Moran’s I统计量表示一个变量的空间相关性。）

2. 时间维度上，由于北京地区空气质量指数随季节变化而变化，因此将所有数据按季节分为4个聚类

3.cnn-lstm

本研究采用的CNN-LSTM包括几个过程。以n个站点近t小时的m ×c变量作为输入数据。输入维度与CNN相同，为t ×m ×n ×c，即6 ×6 ×12 ×3。保留CNN的输入层、卷积层和池化层，提取输入数据的特征。将得到的特征平展成一维数组，并以时间序列的形式输入到LSTM层，分析输入数据的时间序列特征。最后，通过全连接层和输出层得到接下来t’小时n个站的AQIs

总结

1.对AQI空间分布特征进行分析，并解释空气质量的成因和影响关系

2.基于 LSTM、CNN、CNN-LSTM 模型的整体预测的开发和比较

3.将CNN、LSTM、CNN-LSTM模型与时空聚类结合，并与整体预测进行比较

2.An air quality forecasting model based on improved convnet and RNN

基于改进卷积网络和RNN的空气质量预测模型

摘要

目前，已有研究提出对PM2.5浓度的预测。以往的方法大多采用传统的机器学习或实时监测来预测PM2.5的污染值。然而，以往的预测方法不能满足精度要求。为此，本文采用Convnet and Dense-based Bidirectional Gated Recurrent Unit（卷积和密集双向门控循环单元）结合Convnet、Dense和Bi-GRU预测PM2.5值。空气质量数据的特征提取采用卷积层，不采用最大池，Bi-GRU加稠密可以提供更准确的结果。实验表明，本文方法的有效性为PM2.5质量浓度预测提供了一种更优的方法

数据

本文的经验是使用北京空气质量数据集，其中包含Pm2.5值数据和日期、时间、温度、湿度、风速、风向等特征。数据集的数据间隔为1小时，用于实验的数据集范围为2018-01-01 ~ 2019-0701

评估标准

我们选择均方根误差(RMSE)作为损失函数，而RMSE更能反映预测误差的真实情况。另外，采用R square作为模型的误差评价指标，评价数据的变化程度和准确性，衡量模型的预测质量

特点

提出了一种基于卷积和稠密的双向门控循环单元(CDBGRU)，该方法对空气质量数据的处理性能优于其他方法。该算法利用重建卷积层代替传统卷积层，利用卷积层代替最大池层。

做法

CDBGRU是CNN、附加的全连接层和考虑空气质量相关时间序列数据时空依赖性的双向GRU的组合。模型由三部分组成。在第一部分中，没有maxpooling的一维卷积网络对输入变量进行局部特征学习和降维。与传统卷积算法相比，在处理原始数据以产生低维特征序列的过程中，用另一个卷积代替了maxpooling的缺失，可以具有更好的性能

在第二部分中，将特征序列输入双向GRU(Bi-GRU)，在训练过程中不断调整重置门和更新门的参数，然后从时间序列数据中学习卷积特征之间的关系。在模型的最后，使用两个完全连通的层，最后一层只有一个通道来预测PM2.5浓度值。

该方法的创新之处是采用一维卷积作为GRU前的预处理过程，并使用一层卷积网络代替池化层，将局部特征提取与GRU的时间序列预测能力相结合。另一方面，通过双向加工序列，双向GRU可以捕获可能被单向GRU忽略的模式。

Cnn部分

在本文中，我们把时间序列看作一个空间维度。卷积的局部感知和权值共享可以降低处理多个时间序列时的处理难度，提高学习效率。（使用CNN卷积的原因）。由于天气数据在卷积后不需要去采样，采样不需要高的平移不变性，因此使用另一个卷积层代替max-pooling层进行二次采样，输出从输入时间序列中提取的子序列。

GRU部分

Bi-GRU由两个gru组成，一个处理时序输入时间序列数据，另一个处理反时序输入时间序列数据，然后将它们的表示组合到一个整体状态。特征数据和时间序列数据，如空气质量数据和气象数据，受某些连续函数的分布影响，我们可以通过观测值来拟合以往数据的函数来预测未来数据。同样，特征数据可以被用来预测前一时刻的值，这通常用于反向传播。对于时间序列预测任务，在以往的研究中，由于连续分布，只有历史数据才能提供预测能力;双向训练模型可以为逆向连续建模提供更有用的信息。通过查看年代性和反年代性输入的空气质量数据，使模型能够获得更准确的表征和捕获年代性GRU可能忽略的模式，从而提高普通GRU的性能。

Dense部分

全连通层(密集)，全连通层在整个网络中往往起着分类器或回归器的作用。它是将学习的分布式特征表示映射到样本标记空间。使用多个全连接层可以提高模型的精度，因为这些层中有很多参数。

总结

与其他深度学习方法特别是CBGRU相比，该方法具有额外的全连接层结构，确保了预测的准确性。但是，从参数灵敏度的实验中我们也可以发现CDBGRU没有明显的参数灵敏度，这将干扰我们去寻找最佳的参数。此外，额外的致密层将增加参数的数量，这将增加时间的复杂性。最后，我们的模型进行了稳健的预测，从图7可以看出，有两个异常值，这两个异常值的预测是正确的。总体而言，CDBGRU能够满足目前PM2.5预测的需求。

3.A time series forecasting based multi-criteria methodology for air quality prediction

基于时间序列预测的空气质量多准则预测方法

摘要

关于环境污染模型的设计和测试，特别是在大气中，有非常广泛的文献。然而，目前和最近的模型都集中于解释原因和它们的时间关系，而没有充分详细地探索纯预测模型的表现。我们在这里考虑三年的数据，包括空气中每小时氮氧化物的浓度;接触高浓度的这些污染物已被表明是许多呼吸、循环甚至神经疾病的潜在原因。氮氧化物浓度与每项测量的气象和车辆交通数据相匹配。我们提出了一种基于准确性和稳健性准则的方法来比较不同的污染物预测模型及其特点。对1DCNN、GRU和LSTM深度学习模型以及随机森林、Lasso回归和支持向量机回归模型进行了不同窗口大小的分析。因此，我们最好的模型可以提前24小时，非常可靠地预测考虑区域的空气中污染物的浓度，这可以用来计划和实施不同种类的干预措施和措施，以减轻对人口的影响

特点

本节描述了构建NO2(含O3和不含O3)和NOx(含O3和不含O3)浓度时间序列预测模型的方法，模型的比较和最佳模型的选择考虑24步前的预测。提出的方法的主要目的是比较不同的深度学习架构彼此之间以及与更传统的机器学习方法。

做法

深度学习：

1DCNN：这种卷积神经网络使用了一个由1×1滤波器组成的一维卷积层。这种过滤器对每个输入只需要一个参数，降低了模型的复杂性。这个1×1过滤器不需要任何填充，步幅可以用来控制输出空间的尺寸。由于参数的减少，一维卷积层在处理一维信号时更可取。

LSTM、GRU

机器学习：

RF、SVM、Lasso

我们的方法还包括:滑动窗口变换、缺失值归算、超参数调优、评估、统计检验、多准则决策以选择最佳模型，最后是提前1到24步的预测。

我们已经独立应用了该方法对NO2，NOx,NO2和 O3，NOx和 O3的预测问题。下面分别说明拟议方法的每一个步骤。我们使用了Python包，Scikit-Learn，Keras和TensorFlow来实现提出的方法。

总结

在本文中，我们提出了一种评估和比较多元时间序列预测的深度学习模型的方法，包括滞后变换、超参数调优、统计测试、多准则决策和h-step超前预测。我们设计了一种客观的方法来评价预测技术的优度，并应用于我们测试的预测技术。我们的结论是，深度学习方法，特别是LSTM和GRU，窗口在3到24小时之间，允许非常可靠的24小时提前预测。我们的预测结果，包括在很多情况下相关指数大于0.9的预测结果，远远好于以前用类似数据得到的结果。

4.A novel method for identifying hotspots and forecasting air quality through an adaptive utilization of spatio-temporal information of multiple factors

一种自适应利用多因素时空信息识别热点和预测空气质量的新方法

摘要

本文提出了一种新的基于空间注意的长短期记忆(SA-LSTM)方法，该方法将长短期记忆与空间注意机制相结合，自适应地利用多因素的时空信息预测大气污染物浓度。具体来说，SA-LSTM利用门控循环连接提取多个因素在单个位置的时间信息，并利用空间注意机制在空间上融合这些位置提取的时间信息。该方法适用于需要利用相关因子的时空信息进行大气污染物浓度预测的情况。为了验证所建议的SA-LSTM的有效性，我们将其应用于香港这个具有特殊城市景观的高密度城市，利用空气质量和气象数据预测每日的空气质量。实证结果表明，所提出的SA-LSTM模型在一天预测精度方面优于传统模型，特别是在极值预测方面。此外，SA-LSTM学习到的注意力权重可以识别空气污染过程的热点，降低预测的计算复杂度，并更好地理解空气污染的潜在机制。

数据

考虑的空气污染物是PM2.5、PM10、NO2、SO2、O3和NOX。

对于气象数据，我们使用平均温度(°C)、总降雨量(mm)、平均风速(km/h)和风向(度)

特点

本研究的主要目的是提出一个模型，即SA-LSTM，该模型将LSTM和自注意机制相结合，自适应地整合不同空气质量监测站的时空信息来预测空气污染物浓度。

做法

SA-LSTM使用来自不同站点的空气质量和气象数据作为LSTM的输入。在LSTM的每个隐藏状态后加入自注意，融合不同站提取的时间特征。融合后的特征被传递到随后的全连接层，输出每个站点的预报。该模型将时空特征提取融合到一个统一的模型中。具体来说，LSTM层可以有效提取单个站点多个因素的有用时间信息，而注意层可以自适应融合LSTM提取的信息来识别热点并进行预测。

总结

提出了一种新的方法，即SA-LSTM，自适应地利用多因素的时空信息来识别热点和预测大气污染物浓度。特别地，SA-LSTM利用LSTM来捕获单个站点的时间关系，并利用空间注意机制来学习不同站点之间的空间关联。拟议的框架简单而统一，适用于所有空气污染物。不同于常见的两阶段方法,使用复杂的框架来确定相关因素或热点，SA-LSTM可以把所有因素收集到各个站点作为输入,然后预测所有污染物的浓度站在下一天的值t0。所有的时空信息都得到了自适应和有效的利用。通过识别热点，可以大大降低计算复杂度。该方法是可行的，当多个因素的时空信息需要利用时，适用于任何城市或地区。利用香港空气质量和气象数据进行的实验表明，SA-LSTM优于P方法、传统的神经网络和基于rnn的模型。通过对空间信息的额外利用，SA-LSTM可以更好地捕捉突发变化的极端天气，比LSTM获得更好的预报精度。此外，经过训练的SA-LSTM的空间注意权值可以为识别大气污染物浓度过程的热点和可能的关键因素提供有用的信息。

5.Air pollution concentration forecasting based on wavelet transform and combined weighting forecasting model

基于小波变换和组合加权预测模型的大气污染浓度预测

摘要

空气质素持续恶化，空气污染事件频频发生及其带来的不良影响，一直是公众关注的焦点。因此，准确预测空气污染物对治理工作具有重要作用。本文在三个单一预测模型的基础上，建立了北京市NO2浓度的组合权重预测模型(CWFM)。首先对输入数据进行离散小波分解，提高数据的维数;其次，利用小波分解结果与长短期记忆神经网络(LSTM)、门通循环单元(GRU)和双向长短期记忆神经网络(Bi-LSTM)分别构建DWT-LSTM、DWT-GRU和DWT-Bi-LSTM模型，并对预测结果进行对比和比较。最后，通过权重分配，将三个单预测模型纳入组合加权预测模型中。结果表明,合并后的体重预测模型构建本文可以提高预测精度,结合每一个预测模型的优点,并通过与任何单个预测模型对比,结合模型结构更适合在北京NO2浓度的预测。

数据

本文的输入指标是北京市五种主要污染物的日平均浓度数据，输出指标是NO2日平均浓度数据。用一年的前346天作为训练数据集，最后10天做测试数据集

评估标准

为了准确评估实验模型的有效性，本文采用均值绝对百分比误差(Mean Absolute Percentage Error, MAPE)、均方根误差(Root Mean Squared Error, RMSE)和均值绝对误差(Mean Absolute Error, MAE)三个评价指标对模型的预测性能进行定量评价。该值越小，模型精度越高，预测性能越好。

特点

使用小波变换进行数据处理

做法

1.小波变换是一种通过积分将时域信号转化为时域信号和频域信号的数据预处理方法，可以获得描述信号行为的数据，提取信号的频率成分。本文采用离散小波变换对原始数据进行分解，并用时间尺度函数对数据进行分析，给出了小波变换的多尺度分辨率和时移特性。因此，小波变换非常适合处理大气污染物数据等非平稳时间序列问题。

2.Bi-LSTM由双向递归神经网络(Bi-RNN)和长短期记忆(LSTM)组成，可以处理两个方向的时间序列数据。该网络由两个不同的LSTM隐含层组成，具有方向相反的相似输出。

3.组合权重预测模型(combined weight prediction model, CWFM)

采用m 个(m >2)不同的个体模型对实验对象进行预测，然后将这些个体模型与适当的权重分配标准进行整合。最后，将建立的组合模型进一步应用于实验对象的预测。CWFM不仅可以高效、准确地提取个体预测模型的样本信息，还可以减少随机因素造成的各种干扰，从而提高整体模型的预测精度。

总结

1.六种大气污染物小波分解后高频信息的差异大于低频近似信息的差异，反映了小波分解对高频信息的挖掘能力。

2. 对比DWT-LSTM模型、DWT-GRU模型和DWT-Bi-LSTM模型的预测结果可以发现，这三种模型都适用于实际NO2浓度的预测，但结果存在一定的差异，这是由于外部干扰的影响。单一的预测模型未能充分发挥其优势，导致理论预测值与实际预测值存在差异，降低了最终的预测精度。组合权重模型可以根据实际的预测值确定每个模型的权重，保证了三种预测方法的优势有效结合，从而降低了单一预测模型的风险。本文采用方差反法和简单加权法计算三个预测模型的权重系数，构建组合权重模型预测NO2浓度。

6.PM2.5 concentrations forecasting in Beijing through deep learning with different inputs, model structures and forecast time

基于深度学习的不同输入、模型结构和预测时间的北京市PM2.5浓度预测

摘要

及时、准确的空气质量预报对防治和缓解大气污染具有重要意义。然而，以往的预测模型大多只考虑时间或空间预测。不同的输入、模型结构和引导时间对模型性能的影响研究较少。本研究开发了3种深度学习神经网络(长短期记忆(LSTM)、卷积神经网络(CNN)和CNN-LSTM)对PM2.5时空浓度的1- 24小时预测。采用bp神经网络(BPNN)作为控制模型。利用2015 - 2016年北京多个站点的3种输入数据(PM2.5浓度+气象数据、空气质量数据和6个最相关变量分别)进行模式开发。结果表明，过去小时PM2.5浓度、混合空气质量指数或其他污染物浓度和风速可作为较好的候选预测指标。在1 h预测中，LSTM模型和CNN-LSTM模型的预测效果最好，表现最好。对于2-24小时的预报，LSTM是12 h以上的最优模型预测，CNN-LSTM通常更好的预测在12 h内。研究表明，深度学习模型在小时PM2.5预报中优于浅学习模型，优化模型的输入和结构有助于提高小时PM2.5预报的性能。

数据

选取了三种数据作为输入变量，分别是以往PM2.5浓度加上气象因素，空气质量以及六个最相关的变量，每个数据集由7个变量组成。输出是利用12个空气质量监测站过去12小时的数据预测的未来1-24小时的PM2.5浓度。。这些数据集的大小为7×12×12，根据不同模型的需要转换为不同的输入维度。采用线性归一化方法将所有输入转换为[0,1]的范围。因此，消除了维度和变量变化的影响，提高了模型的收敛速度。为了拟合输入数据的时间特征，验证模型的泛化能力，将数据集分为两部分。前70%是训练集，后30%是验证集。

评估标准

采用均方根误差(RMSE)和相关系数(R2)作为评价指标。表示偏差的RMSE越低，模型精度越高。R2表示模型的拟合优度。取值范围为[0,1]。R2越接近1，预测值和观测值之间的分布越相似。

特点

CNN-LSTM网络

做法

CNN-LSTM网络作为一种混合网络，其模型通常具有不同的结构。本研究采用的混合模式是通过将预测器数据转换为与CNN相同的输入格式来进行的。输入是一个四维数组，维数为t×m ×n ×c (t:时间步长;M:矩阵行数;N:矩阵列数;C:频道数)。保留CNN的输入层、卷积层和池化层，提取输入数据的空间特征。将获取的特征通过平滑层平展成一维阵列，然后进入LSTM层进行时间特征分析。最后，通过全连接和输出层得到下一个t ' (t '∈[1,24])每小时12个站的PM2.5浓度

总结

在本研究中，相关度最高的预测因子(PM2.5(t)、AQI(t)、PM10(t)、CO(t)、NO2(t)、SO2(t)、风速(t)均为线性相关，认为该模型对下一小时PM2.5浓度的预测效果最好。这意味着以往同时排放不同空气污染物的浓度通常是预测PM2.5浓度的良好候选预测因子。同时，PM2.5浓度预测模型应充分考虑当地降水、风向、风速、气压等气象因素对PM2.5扩散和沉积的影响。

7. Development of a PM2.5 prediction model using a recurrent neural network algorithm for the Seoul metropolitan area, Republic of Korea

利用递归神经网络算法开发韩国首尔都市圈PM2.5预测模型

摘要

环境部国立环境研究院从2013年8月31日开始，对首尔地区直径≤2.5 μm (PM2.5)的PM2.5浓度进行了4个等级(低、中、高、非常高)的预测。目前的模式是社区多尺度空气质量(CMAQ)模式，每天运行四次，以以6小时为间隔预测最多两天的空气质量。2018年，该模型的命中率(即准确率)为60%，在预报员的参与下，准确率又增加了10%。在本研究中，CMAQ被改进，加入了针对首尔首都地区的递归神经网络(RNN)算法。与典型的神经网络算法不同，RNN算法学习时间序列信息时，将数据集输入到RNN模型中，这些数据集包括pm值、气象参数以及从观测和模型预测中获得的反轨迹轨迹。为反映影响该地区PM2.5浓度的气象参数的季节性，将一年分为36组3个月周期(7月分为3组:5 - 6 - 7月、6 - 7 - 8月和7 - 8 - 9月)。在对RNN模型进行了前三年(2015-2017)的训练后，基于2018年的RNN模型结果，计算了代表预测准确性的几个指标。RNN模型的预报提前时间为两天，准确率为74-81%，比cmaq单预报高约20%，比cmaq联合预报高约10%。RNN模型对高和非常高PM2.5事件的检测概率与CMAQ模型相当;而RNN模型显著降低了误报率。总的来说，RNN模型比目前的预测方法具有更高的性能。因此，该模型可以作为韩国的业务预测模型。

数据

数据预处理步骤中，由于变量具有不同的尺度(如代价值要么收敛到零，要么发散到无穷大)，因此将输入数据从零归一化，采用MinMax缩放方法。

利用预先训练的权重参数，使用三个预测模型对某一天的PM2.5浓度进行预测。例如，要预测1月27日的PM2.5水平，需要对应11 - 12 - 1月、12 - 1 - 2月、1 - 2 - 3月的模型。对这三个集合模型的结果进行平均，以获得最终预测阶段的日浓度值。我们将CMAQ和RNN模型中预测的PM2.5日浓度和水平，与使用统计方法获得的地面真实值进行了比较。将均方根误差作为代价函数应用到模型训练中。PM2.5浓度采用平均绝对误差(MAE)、平均偏差误差(MBE)、决定系数(r2)和Nash−Sutcliffe模型效率系数(NSE)进行评估。

特点

带有门控循环单元(GRU)单元的序列到序列RNN模型结构

做法

该模型框架模拟了用于语言翻译任务的序列到序列结构。该模型有两个相连的RNN网络:编码器网络和解码器网络。编码器网络通过两个堆叠层，随着时间的推移顺序学习观察到的数据，并将信息压缩到一个隐藏的状态。编码器的最终隐藏状态被转移到解码器的初始状态。解码器网络像编码器一样训练模拟数据，只是前一步的输出与当前步骤的输入数据连接在一起。

我们使用了几种技术来利用给定的数据对RNN模型进行不同的训练。首先，采用学习率调度进行模型泛化;在预测集损失最小时保存训练后的权值参数文件，通过恢复已保存的文件，降低学习率，重新进行训练。如果损失不再减少，则停止训练，并在预测中重用保存的权重文件。其次，在每个迭代步骤中，将批量训练数据与均匀随机噪声与标准差相乘，在数据范围外人工训练模型。第三，使用梯度修剪来防止梯度爆炸。最后，当我们针对特定区域训练模型时，样本数量为高和非常高的级别是不足的时，这两个级别的命中率非常低。因此，我们不仅使用目标区域的样本，还使用其他三个城市/省份的样本进行训练

8.An improved pollution forecasting model with meteorological impact using multiple imputation and fine-tuning approach

一种改进的气象影响污染预测模型

摘要

空气污染预测是空气质量污染管理的重要一步，以减轻污染对环境和人民健康的负面影响。数据驱动的预测模型有助于更好地了解环境空气质量。现有的数据驱动预测模型往往忽略了缺失值、污染物与气象因子之间的相关性，无法有效地进行时间建模，影响了预测精度。针对这些问题，我们提出了一种基于深度学习的卷积LSTM-SDAE (CLS)模型来预测颗粒物水平，揭示了颗粒物与气象因子之间的相关性。在该体系结构中，采用k近邻(KNN)估算技术来恢复空气质量数据集的缺失值。卷积长短期记忆(CNN-LSTM)单元识别了大量数据集的隐藏特征，并进行污染物的时间建模。此外，在稀疏去噪自编码器中，采用双向Gatted循环单元(BIGRU)作为编码器和解码器，在动态微调层重构CNN-LSTM模型的输出，以获得鲁棒的预测结果。在印度Talcher和中国北京的实验结果表明，该模型可以提高预测精度，并优于其他先进的和基线模型。

数据

（印度Talcher）数据集1：数据集包含PM10、PM2.5、大气温度(AT)、风速(WS)、风向(WD)、相对湿度(RH)浓度等15分钟间隔数据。

（中国北京）数据集2：数据集包括PM2.5、露点、温度、压力、风向、风速、降雪和降雨集中累计小时数。

特点：

本研究的主要目标是使用新构建的CNN-LSTM-SDAE (CLS)深度学习模型，利用实时空气质量和气象数据集，对PM2.5浓度水平进行预测，预测结果优于现有模型。

CNN-LSTM-SDAE：提出的方法框架分为特征学习层(CNN)、时间依赖分析层(LSTM)和动态微调层(SDAE)三层

做法

1.PM2.5颗粒物的深度特征提取和气象影响分析是大多数传统统计模型和机器学习模型的共性问题。因此，该模型的初始阶段对于提取数据集的隐藏特征、评估气候变量对PM2.5预测的影响至关重要。因此，本文模型体系结构采用CNN进行特征提取，采用LSTM进行趋势分析。

2. 采用KNN归一化技术，可有效地应用于多元数据集。它可以用k最近的点替换缺失的值，并保持特征之间的相关性

3. 实验采用动态稀疏去噪自编码进行微调操作并压缩最终结果。假设突然发生变化，导致数据中缺失值，影响空气污染预测结果。在这种情况下，所提出的体系结构的微调自动编码器层可以通过重构错误，有效地微调预测性能来处理这些情况。

总结

本文提出的基于深度神经网络的CLS模型的创新之处在于:首先，采用多重imputation技术，利用可利用的气象信息等各种参数来恢复缺失值。良好的数据质量可以提高预测精度。其次，提出的体系结构计算Pearson相关系数，分析最关键的气象因子，提高PM2.5的预测精度。该模型能够有效地进行海量数据集的特征学习和时间建模。第三，CLS模型具有动态稀疏去噪自编码层进行微调操作，能够在动态环境下有效预测PM2.5。SDAE模型可以处理实时环境中常见的原因未知的缺失值问题的多样性，并对误差进行重构以提高预测结果。

您可能感兴趣的与本文相关的镜像

Dify

AI应用

Agent编排

Dify 是一款开源的大语言模型（LLM）应用开发平台，它结合了后端即服务(Backend as a Service) 和LLMOps 的理念，让开发者能快速、高效地构建和部署生产级的生成式AI应用。它提供了包含模型兼容支持、Prompt 编排界面、RAG 引擎、Agent 框架、工作流编排等核心技术栈，并且提供了易用的界面和API，让技术和非技术人员都能参与到AI应用的开发过程中