随机森林模型调优与网格搜索实践
1. 网格搜索基础
在Python中,打印 g 或 g_r2 可以获取所有模型。而在R中,打印网格目前仅显示最佳的6个和最差的6个模型。若模型数量超过12个,需要使用如下代码下载:
as.data.frame( g_r2@summary_table )
H2O中的网格本质上是一组嵌套循环(或另一种形式的随机参数选择)。虽然可以在几分钟内自行编写解决方案,但H2O的网格在Flow中有独立的顶级菜单, g 对象是存储模型的良好容器,并且API提供了用于比较模型的表格。不过,若需要更高的灵活性,也可以自己编写循环。
1.1 RandomDiscrete模式
当超参数过多,无法穷举所有组合时,可以使用“RandomDiscrete”模式。此模式会随机在不同组合间跳转,需要额外的参数来控制停止条件,至少指定以下之一:
- max_models :构建指定数量的模型后停止。
- max_runtime_secs :运行指定时长后停止。
- stopping_metric :如AUTO、错误分类率等。
- stopping_tolerance :例如0.0001,表示指定指标至少提升0.01%。
- stopping_rounds :例如5,结合 st
超级会员免费看
订阅专栏 解锁全文
1192

被折叠的 条评论
为什么被折叠?



