14、机器学习模型：随机森林与梯度提升机的应用与调优

lambda

于 2025-09-22 16:35:55 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏： H2O机器学习实战精要文章标签：随机森林梯度提升机 GBM

本文链接：https://blog.youkuaiyun.com/lambda/article/details/152427788

H2O机器学习实战精要专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习模型：随机森林与梯度提升机的应用与调优

1. MNIST 数据集的随机森林调优

1.1 模型误差分析

在 MNIST 数据集上，使用网格中第二好的模型时，误差率为 288。与默认模型相比，增强数据带来了 17 的提升。测试时，其他六个模型的误差率分别为 310、292、312、308、320、313，这表明不同的随机种子会导致至少 18 的误差范围。在 10000 个样本中，该模型有 305 个预测错误，比默认模型好 22 个。

1.2 增强数据的效果

使用增强的 MNIST 数据（额外的 113 列）重复默认随机森林模型，验证集有 355 个错误，测试集有 326 个错误，仅比仅使用像素数据略有提升。以下是使用增强数据进行网格搜索的部分结果：
| sample_rate | seed | min_rows | max_depth | mtries | col_sample_rate_per_tree | logloss |
| — | — | — | — | — | — | — |
| 0.9 | 999 | 2 | 40 | 56 | 0.9 | 0.19946616 |
| 0.9 | 101 | 2 | 40 | 56 | 0.9 | 0.20147704 |
| 0.9 | 101 | 2 | 40 | 42 | 0.9 | 0.20494049 |
| 0.9 | 999 | 2 | 40 | 42 | 0.9 | 0.20636335 |
| 0.7 | 101 | 2 | 40 | 56 | 0.9 | 0.21045509 |
| 0.7 | 99