符号回归:模型生成、选择与验证
1. 数据预处理
在住房数据集中,每个普查区是城镇的一部分,城镇内普查区的数量是可变的。部分变量(如 ZN、INDUS、NOX、DIS、RAD、TAX 和 PTRATIO)仅在城镇层面可知,而具有普查区分辨率的变量有 MEDV、CRIM、CHAS、RM、AGE、B 和 LSTAT。这种不同的分辨率是由于数据来自不同数据源。
为了构建 MEDV 的预测模型,我们采取了以下操作:
1. 数据分区 :传统上建议随机分配观测值,但由于数据的空间相关性,随机分配会导致未检测到的过拟合。因此,我们按城镇对观测值进行分组,然后随机将这些组分配到训练集和测试集,实现约 66/34% 的划分。训练集中的城镇同样被划分为五个几乎相等大小的子集用于交叉验证。
2. 数据转换 :作为最后的预处理步骤,我们对校正后的 MEDV 值进行对数转换。这样做的原因一是 MEDV 必须为正,预测反变换后能保证这一点;二是预测模型应具有较小的相对误差而非绝对误差。
2. 住房中位数价值的模型生成与选择
2.1 GP 参数设置
为了找到 log(CMEDV) 的预测模型,我们设置了如下 GP 参数:
| 参数 | 值 |
| ---- | ---- |
| 种群大小 | 1000 |
| 世代数 | 100 |
| 最大树大小 | {3, 5, 7, 10, 15, 20, 25, 30, 35, 45, 55} 节点 |
| 局部优化 | 10 次 Levenberg - Marqua
超级会员免费看
订阅专栏 解锁全文
2387

被折叠的 条评论
为什么被折叠?



