GridSearchCV调参（一） - 入门（KNN，KFold，StratifiedKFold）

最新推荐文章于 2024-07-18 17:28:15 发布

OldBibi

最新推荐文章于 2024-07-18 17:28:15 发布

阅读量3.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：调参文章标签： GridSearchCV KNN KFold StratifiedKFold 调参

本文链接：https://blog.youkuaiyun.com/weixin_43909872/article/details/86501158

本文介绍了如何使用GridSearchCV进行参数调优，以KNN为例，详细解析了GridSearchCV的关键参数，包括estimator、param_grid、scoring等，并探讨了KFold和StratifiedKFold的区别。通过实例展示了如何利用交叉验证找到最佳的n_neighbors参数，最后验证了选择的参数在测试集上的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前面看了一些基础的机器学习算法，今晚用到sklearn了，才发现原来还可以自动去调参数。。。记录一下

GridSearchCV

网格搜索交叉验证，关键在于交叉验证，意思就是把训练数据集拆分成训练集和验证集，拆分成不同组合来验证对于某个分类器取什么参数值最好

方法参数：
class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=None, iid=’warn’, refit=True, cv=’warn’, verbose=0, pre_dispatch=‘2*n_jobs’, error_score=’raise-deprecating’, return_train_score=’warn’)[source]

estimator：你想用的分类器，比如KNN
param_grid：要预测的参数列表，比如对KNN来说最重要的是n_neighbors
scoring :准确度评价标准，默认None,这时需要使用score函数；或者如scoring=’roc_auc’，根据所选模型不同，评价准则不同。字符串（函数名），或是可调用对象，需要其函数签名形如：scorer(estimator, X, y)；如果是None，则使用estimator的误差估计函数。
cv :交叉验证参数，默认None，使用三折交叉验证。指定fold数量，默认为3，也可以是yield训练/测试数据的生成器，比如KFold和StratifiedKFold
refit :默认为True,程序将会以交叉验证训练集得到的最佳参数，重新对所有可用的训练集与开发集进行，作为最终用于性能评估的最佳模型参数。即在搜索参数结束后，用最佳参数结果再次fit一遍全部数据集。
iid:默认True,为True时，默认为各个样本fold概率分布一致，误差估计为所有样本之和，而非各个fold的平均。
verbose：日志冗长度，int：冗长度，0：不输出训练过程，1：偶尔输出，>1：对每个子模型都输出。
n_jobs