梯度提升机(GBM)在不同数据集上的应用与调优
梯度提升机(GBM)是一种强大的机器学习算法,在回归和分类问题中都有广泛应用。本文将介绍GBM在建筑能源效率和手写数字识别(MNIST)两个数据集上的应用,包括默认模型的表现以及如何通过调优来提高模型性能。
建筑能源效率数据集
这个数据集主要处理各种房屋设计的供暖/制冷成本,是一个回归问题。
默认GBM模型
- 模型建立 :使用10折交叉验证,不使用验证集。在R中使用以下代码建立模型:
m <- h2o.gbm(x, y, train, nfolds = 10, model_id = "GBM_defaults")
在Python中使用以下代码:
from h2o.estimators.gbm import H2OGradientBoostingEstimator
m = H2OGradientBoostingEstimator(model_id="GBM_defaults", nfolds=10)
m.train(x, y, train)
- 模型表现 :建立了50棵深度为5的树。交叉验证数据的均方误差(MSE)为2.462,$R^2$为0.962。变量重要性显示,X5的重要性远高于其他变量,这与X5和响应列Y2的高相关性一致。在未见过的数据上,MSE为2.318,优
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



