“华为杯”第17届中国研究生数学建模竞赛B题二等奖论文

赛题题目:降低汽油精制过程中的辛烷值损失模型

小组成员:于泽华,路博文,康凯

本论文部分源码:GitHub - Zehua-Yu/2020Graduate-mathematical-modeling-B

本论文核心方法出自本人的文章:Z. Yu, X. Zheng, Z. Yang, B. Lu, X. Li and M. Fu, "Interaction-Temporal GCN: A Hybrid Deep Framework For Covid-19 Pandemic Analysis," in IEEE Open Journal of Engineering in Medicine and Biology, vol. 2, pp. 97-103, 2021, doi: 10.1109/OJEMB.2021.3063890.

PS:由于部分原因,并没有写出全部的论文内容及实验结果。

摘要

汽油是小型汽车的主要燃料,但其燃烧产生的尾气排放对大气环境有着重要的影响,将汽油清洁化已是迫在眉睫,但同时也要保证其辛烷值的含量。本文运用机器学习的方法针对处理辛烷值(RON)损失预测模型的问题展开研究。将工厂的原始样本数据进行预处理,分析在精制处理汽油的工程中辛烷值下降的原因,然后将全部的操作变量进行两种不同方法(随机森林和ARMA)的降维处理,对处理后留存下的主要变量进行建模,利用BP(Back Propagation)神经网络进行模型训练,经过验证和测试,利用随机森林和ARMA降维结果作为可变主要变量的产品RON预测准确率分别为:99.6%和99.2%。随即又针对模型输出对主要操作变量进行优化,并将输出结果进行可视化处理。最终,两个方法对应的最高优化RON损失降幅分别为63.21%和65.88%,均达到题目提出的超过30%的标准。

问题一:由于原始数据的采集过程中,可能有部分检测位点存在问题,部分检测时间点的数据出现异常,此外原始数据中还存在部分检测时间点数据精度不达标的情况,对于该部分也应予以剔除。本文依“样本确定方法”(附件二)对285号和313号数据样本进行预处理,在原始数据样本(附件三“285号和313号样本原始数据)的基础上进行数据筛选与处理。

问题二:工程技术应用中经常使用先对数据进行降维,然后建模的方法,这有利于忽略次要因素,发现并分析影响模型的主要变量与因素。本文同时为了降低后续数据处理过程中所消耗的计算资源,采用随机森林(RF)和自回归滑动平均模型(ARMA)两种方法,对354个操作变量进行筛选,使得筛选出的操作变量最具代表性,与目标对象的相关程度高。

问题三:针对本题目所给的场景与数据特点,本文基于BP神经网络结构针对辛烷值(RON)和硫含量双输出的预测模型进行设计。该神经网络具有良好的非线性映射和容错能力,十分契合数据集中的数据特点。此外,本文选择了相对合适的激活函数,以应对梯度消失和过拟合问题。

问题四:本文使用问题三中训练所得模型进行参数优化,优化目标是维持产品硫含量不大于5μg/g,并使产品RON的损失降幅超过30%。对于133号样本,我们使用步进参数优化方法,优化出使得RON损失降福最大约为65%的主要变量参数组合。

问题五:对133号样本优化过程与结果的可视化,并进行优化效果的具体分析,给出优化后产品RON的损失降幅,进而对模型性能进行评估。

关键词:特征降维;随机森林;自回归滑动平均模型;BP 神经网络

1.问题重述

1.1 问题背景

随着社会的发展,汽油燃料需求日益增加,燃烧其产生的尾气污染大气环境的问题也 日渐突显。辛烷值是反映汽油燃烧性能的重要指标,但由于现有脱硫技术的原因,在对汽 油进行处理时,都会降低其辛烷值,进而造成巨大的损失。为了汽油得到最优的利用,本 文在建模过程中研究如何满足操作变量的多样性、对原料分析的高要求及过程优化响应的 及时性。通过数据挖掘技术来建立汽油辛烷值(RON)损失的预测模型,按照每个样本约 束的优化操作的框架下,研究如何在满足汽油脱硫效果的同时(硫含量不大于 5μg/g), 实现降低汽油辛烷值损失在 30%以上。

1.2 需要解决的问题

在本文中,我们根据附件一的样本预处理结果数据、附件二的样本确定方法和附件三的两个原始数据样本进行建立辛烷值(RON)损失预测模型,并按要求完成如下问题:

(1)  参考附件一的工业数据的预处理结果,依照附件二中的样本确定方法对附件三中的原始样本数据进行预处理并将处理结果分别加入到附件一中的相应位置,供下述条件使用。

(2)  辛烷值的测量是测量时刻前两小时内操作变量的综合效果,所以要求预处理中取操作变量的平均值与辛烷值的测量值对应。

(3)  在建立降低辛烷值损失模型的过程中,要从367个操作变量中发现并分析影响模型的主要变量和因素,要求筛选出的建模主要变量为相对独立、对输出结果影响较大的操 作变量。按题目要求,从 354 个操作变量中选择出 27 个特征变量,加上原料的辛烷值 和硫含量共 29 个参数类别,作为该模型的主要操作变量和因素。

(4)  建立RON损失预测模型,采用附件中的样本和选择出的主要变量和因素,通过回归或 神经网络等技术,对问题所属的辛烷值损失预测模型进行建立,并用附件一数据对模 型进行验证。

(5)  要求在保证产品硫含量不大于5μg/g的前提下,利用上述模型以分析出的数据样本中, 获得 RON 损失降幅大于 30%的样本中对应的主要变量优化的操作条件。

(6)  要求对133号样本进行可视化展示,以图形展示其主要操作变量优化调整过程中对应的RON和硫含量的变化轨迹。

2. 模型假设

(1)  由附件一325个样本数据可见,各个样本的原料性质数据均有不同,故对不同样本进 行相同的相关操作变量数值调整时,产品中硫含量和辛烷值 RON 均不同。选定样本的 7 个原料性质数据作为输入,且在后续问题中同一个样本的原料性质均保持不变,即 7 个原料性质不可作为优化产品操作方案的因素和变量;

(2)  由于附件一中325个样本的操作变量数众多,其中包含一些与目标输出(产品硫含量 和产品辛烷值 RON)相关度较低的操作变量。为了降低模型计算量,提高效率,本文 拟对354个操作变量进行特征选择,从中筛选出与目标输出相关程度最大的10个操作 位作为整个预测模型的输入变量;

(3)  由上述1)和2)中进行的假设,本文中所设计的产品辛烷值预测模型的输入为样本的 7 个原料性质和 10 个操作为变量;

(4)  只考虑附件一中所给的样本数据;

(5)  在特征提取部分拟引入两类方法,在建模部分拟引入BP网络,在优化操作位部分拟使

用步进优化参数法。 根据以上假设,本题目的全部方法流程图如图2-1所示:

图2-1 整体框架流程图

3 问题一: 对 285 号和 313 号样本的原始数据进行处理 

3.1 问题分析

由于原始数据的采集过程中,可能有部分检测位点存在问题,在部分检测时间点的数 据出现异常,此外原始数据中还存在部分检测时间点数据精度不达标的情况,对于该部分 也应予以剔除。附件一中的样本数据应该均符合相关要求,能够保证操作变量与产品输出 指标存在合理的相关性,从而使后续数据分析和相关建模工作更具有实际意义。

数据来源:原始数据采集来源于中石化高桥石化实时数据库(霍尼韦尔 PHD)及 LIMS 实验数据库。

问题要求:利用附件三所给的 285 号和 313 号样本的原始数据,依“样本确定方法” (附件二)对 285 号和 313 号数据样本进行预处理,并用处理后的数据对附件一对应样本 编号的数据进行更新。根据问题一要求对 285 号以及 313 号样本原始数据进行数据处理(原 始数据见附件三)。由附件二中关于数据整定的要求,对于 285 号和 313 号样本的原始数 据各个时间点的点位,若操作变量只含有部分时间点的位点,其残缺数据较多,无法补充, 则将此类位点删除;对于部分操作变量数据为空值的位点,空值处用其前后两个小时数据 的平均值代替;依据附件四中对各个原始数据的操作变量操作范围,采用最大最小的限幅 方法剔除一部分不在此范围的样本;根据拉依达准则(3σ准则)去除异常值。

目标:将附件三中 285 号和 313 号样本原始数据中不符合附件二中相关要求的参数进 行删除、代替或剔除异常值等操作,再对通过上述数据整定后的原始数据求其各个操作变 量的均值,并对附件一对应样本编号的数据进行更新。

数据预处理流程图如图3-1所示:

图3-1 数据预处理流程图

3.2 数据提取 

导入附件三中 285 号和 313 号样本每个测试时间点各个操作变量的对应数值。原始数据中,大部分变量数据正常,但由附件二中可知,每套装置的数据均有部分位点存在问题, 需要对原始数据进行处理后才可以使用。

3.3 数据处理

(1)  删除285号和313号样本中残缺数据较多、无法进行补充的的操作变量(删除该位点)。 对 285 号和 313 号样本原始数据进行筛选,其中有若干操作变量在所有时间节点均无 数据,故将此类操作位点所有数值置零,从而表示删除该类操作位点。

(2)  对于部分操作变量数据为空值的位点,空值处用其前后两个小时数据的平均值代替。 对 285 号和 313 号样本原始数据进行筛选,均无满足该条件的数据,故不予处理。

(3)  依据附件四中对原始数据的操作变量操作范围,采用最大最小的限幅方法,从285号 和 313 号样本原始数据中剔除一部分不在此范围的样本。

(4)  根据拉依达准则(3σ准则)去除异常值。分别对285号和313号样本原始数据各个操 作变量进行等精度测量,对每个操作位点在 40 个时间节点得到 x1,x2,......,x40, 算出其算术平均值 x。其次根据对应操作变量的算数平均值,求出剩余误差 vi=xi-x (i=1,2,...,40)。再对每个操作变量按贝塞尔公式求出其对应的标准误差σ,贝塞尔公式如(1)所示:

\sigma=[\frac{1}{n-1}\sum_{l=1}^{n}v_l^2], \ \ \ (n=40) \ \ \ \ \ (1)

若某个操作变量在b时间节点的测量值的剩余误差v_b(1<=b<=n),满足|v_b|=|x_b-x|>3\sigma,则认为x_b是含有粗大误差值的坏值,285号样本和313号样本的原始数据中,各个操作变量均有部分时间节点的数据满足|vb|=|xb-x|>3σ,将该部分坏值剔除。

完成上述4步主要操作后,对285号和313号样本原始数据中各个操作变量求均值, 并将处理后的数据对附件一进行更新。

3.4 数据对比

由完成处理的数据,可以发现285号和313号样本数据与附件一中相同,说明附件一中所给的285号与313号样本操作变量数据均无坏值,符合工业生产中的观测要求。可以作为后续数据挖掘和分析工作的基础,能够作为参考样本反应操作变量和产品输出指标的关系。

4 问题二: 选取主要特征操作变量 

4.1 问题分析

汽油的实际精制生产工序十分繁琐,可操作位点繁多,而不同操作位点之间可能存在着某些相关性质,例如装置内部温度的变化可能会导致装置内部压力的变化。同时也存在 一些与汽油成品质量相关性不大的常规操作变量。为了降低后续数据处理过程中所消耗的计算资源,需要对354个操作变量进行筛选,使得筛选出的操作变量最具代表性,与目标输出指标的相关程度高。

数据来源:原始数据采集来源于中石化高桥石化实时数据库(霍尼韦尔 PHD)及 LIMS 实验数据库。

问题要求:附件一中提供的 325 个样本数据中,包括 7 个原料性质、2 个待生吸附剂 性质、2 个再生吸附剂性质、2 个产品性质等变量以及另外 354 个操作变量(共计 367 个 变量)。对上述 367 个变量进行降维,选出不超过 30 个特征变量对模型进行建模。要求 选择具有代表性、独立性。

目标:由于附件一中的 325 个样本的原料性质均有差异,故本文将样本的 7 个原料性质作为模型输入的一部分,且对单个样本进行分析时原料性质不可进行操作更改。此外,本文将对 367 个操作变量进行特征选择,从中选择 10 个对模型输出影响较大的操作变量作为降维后的特征。综上所述,本文对上述 367 个变量(其中预先确定选择 7 个原料属性变量)选择合适的特征降维方法进行降维后,得到共 17 个特征。

4.2 特征降维简述 

附件一中提供的325个样本数据中,包括7个原料性质、2个待生吸附剂性质、2个再生吸附剂性质、2个产品性质等变量以及另外354个操作变量(共计367个变量)。若将所有变量作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值