算法调参
参考:XGBoost https://blog.youkuaiyun.com/han_xiaoyang/article/details/52665396
GBM https://blog.youkuaiyun.com/han_xiaoyang/article/details/52663170
0、网格搜索sklearn.model_selection.GridSearchCV
参数:
estimator:分类器,要传入除搜索参数外的其它参数(与scoring参数一起使用)
param_grid:需要优化的参数的取值,值为字典或列表
scoring:模型评价指标,默认为None,这时需要使用score函数;或者scoring=’roc_auc’,根据所选模型不同,评价准则不同。字符串(函数名),或是可调用对象,需要其函数签名,形如:score(estimator, X, y);如果是None,则使用estimator的误差估计函数。
n_jobs:并行数。None表示为1,-1表示使用所有cpu核。
cv:交叉验证参数,默认为None,使用3折交叉验证。
verbose: 决定建模完成后对输出的打印方式。
0:不输出任何结果(默认)
1:打印特定区域的树的输出结果
>1:打印所有结果
pre_dispatch:指定总共分发的并行任务数。当n_jobs大于1时,数据将在每个运行点进行复制,这可能导致OOM。
而设置pre_dispatch参数可以预先划分总共的job数量,使数据最多被复制pre_dispatch次。
refit:默认为True,程序将会以交叉验证训练集得到的最佳参数,重新对所有可用的训练集与开发集进行,
作为最终用于性能评估的最佳模型参数。即在搜索参数结束后,用最佳参数结果再次fit一遍全部数据集。
iid:默认为True,设为True时,各个样本fold概率分布一致,误差估计为所有样本之和,而非各个fold的平均。
常用属性:
best_score_:最佳模型下的份数
&nb