符号回归的实例与应用
1. 工业化学过程
1.1 数据集介绍
- 化学数据集 :源自陶氏化学公司的工业过程,包含58个变量和1066个观测值。目标变量是最终产品化学成分的噪声测量值,其余变量为输入特征,如物料流量、压力和温度等过程参数。
- 塔数据集 :同样来自工业过程,有26个变量和4999个观测值。目标变量是蒸馏塔顶部丙烯的浓度,每15分钟使用气相色谱法测量一次。其余变量为过程参数,每分钟测量一次,为与目标变量同步,将其余变量聚合为15分钟的平均值。
1.2 建模方法
建模方法主要包括两个步骤:
1. 数据预处理 :进行相关性分析,计算所有输入变量之间的成对相关系数(ρ),当ρ²值至少为0.95时,认为输入特征高度相关,可排除其中一个特征。
2. 建模 :使用原始数据集和预处理后的数据集进行符号回归(SR)。每个数据集的三分之二观测值用于训练,其余三分之一用于测试。
1.3 相关性分析
化学数据集
通过相关性分析,发现三组相关变量,可排除8个输入特征:
- 变量x17、x18、x19
- 变量x23、x24、x26、x27、x28
- 变量x33、x52、x53
过滤后的输入集S′ = S \ {x18, x19, x24, x26, x27, x28, x52, x53},其中S为所有独立变量的集合。
超级会员免费看
订阅专栏 解锁全文
1673

被折叠的 条评论
为什么被折叠?



