前言:特意写在前面,在调参的过程中,一定不要一次调整多个参数,理论是是可以,但那样不仅耗时,而且不好细微的调参,我就以我用随机森林的例子为例,我一次性调整了4个参数,大概花费了我差不多4个小时的时间,所以我自己的经验就是参数最好一个一个调整,当然如果你的机器性能很好,完全可以忽略这点。
其次,在调参的过程中,除了使用常见的格点搜索,利用验证曲线validation_curve来形象化的展示每个结果的好坏,这样 便于你细调。
随森林参数记录
- 1、先用默认参数看预测结果
- 2、然后用gridsearchcv探索n_estimators的最佳值
- 3、然后确定n_estimators,据此再搜索另外两个参数:再对内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf一起调参
param_test3= {‘min_samples_split’:range(80,150,20), ‘min_samples_leaf’:range(10,60,10)} - 4、最后我们再对最大特征数max_features做调参: param_test4= {‘max_features’:range(3,11,2)}
- 5、最后用得到的参数再次带入模型,得到结果。