机器学习中的GBM与GLM模型详解
1. 足球数据上的GBM模型
1.1 数据准备与默认GBM模型
我们以足球比赛数据为例,这是一个时间序列数据,其中添加了近期比赛结果的移动平均值、各球队上一场比赛的统计数据,还有专家意见(博彩公司赔率)。
若要进行实验,需运行之前定义好的代码来设置H2O、加载数据,并定义训练集(train)、验证集(valid)、测试集(test)、特征集(x)、不含赔率的特征集(xNoOdds)和目标变量(y)。
由于有验证数据集,我们使用验证集而非交叉验证。接下来构建两个模型,分别使用所有特征(x)和不使用博彩公司赔率(xNoOdds)来预测主场获胜(一个相对平衡的二项式问题):
m1 <- h2o.gbm(x, "HomeWin", train,
model_id = "GBM_defaults_HomeWin_Odds",
validation_frame = valid)
m2 <- h2o.gbm(xNoOdds, "HomeWin", train,
model_id = "GBM_defaults_HomeWin_NoOdds",
validation_frame = valid)
每个模型构建大约耗时10秒,期间8核CPU平均使用率约为60 - 70%。使用 compareModels() 函数得到各数据集上的AUC分数如下:
| 数据集 | HomeWin | HW - NoOdds |
| ---- | ---- | ---- |
超级会员免费看
订阅专栏 解锁全文

26

被折叠的 条评论
为什么被折叠?



