机器学习模型:随机森林与梯度提升机的应用与调优
1. MNIST 数据集的随机森林调优
1.1 模型误差分析
在 MNIST 数据集上,使用网格中第二好的模型时,误差率为 288。与默认模型相比,增强数据带来了 17 的提升。测试时,其他六个模型的误差率分别为 310、292、312、308、320、313,这表明不同的随机种子会导致至少 18 的误差范围。在 10000 个样本中,该模型有 305 个预测错误,比默认模型好 22 个。
1.2 增强数据的效果
使用增强的 MNIST 数据(额外的 113 列)重复默认随机森林模型,验证集有 355 个错误,测试集有 326 个错误,仅比仅使用像素数据略有提升。以下是使用增强数据进行网格搜索的部分结果:
| sample_rate | seed | min_rows | max_depth | mtries | col_sample_rate_per_tree | logloss |
| — | — | — | — | — | — | — |
| 0.9 | 999 | 2 | 40 | 56 | 0.9 | 0.19946616 |
| 0.9 | 101 | 2 | 40 | 56 | 0.9 | 0.20147704 |
| 0.9 | 101 | 2 | 40 | 42 | 0.9 | 0.20494049 |
| 0.9 | 999 | 2 | 40 | 42 | 0.9 | 0.20636335 |
| 0.7 | 101 | 2 | 40 | 56 | 0.9 | 0.21045509 |
| 0.7 | 99
超级会员免费看
订阅专栏 解锁全文
1253

被折叠的 条评论
为什么被折叠?



