超参数选择：网格搜索GridSearchCV

最新推荐文章于 2025-11-14 22:07:21 发布

原创

最新推荐文章于 2025-11-14 22:07:21 发布 · 4.6k 阅读

CC 4.0 BY-SA版权

本文介绍GridSearch和GridSearchCV在机器学习模型参数调优中的应用，包括其工作原理、Python实现方式及示例代码，帮助读者理解如何通过网格搜索找到最佳参数组合。

.Grid Search

.GridSearchCV

grid search with cross validation，将网格搜索与交叉验证结合，交叉验证将数据集划分为训练集、验证集和测试集，其中训练集用来模型训练，验证集用来调整参数，而测试集用来衡量模型表现好坏，对循环遍历的每个可能的参数，采用交叉验证的方式评价参数质量。
Python实现：Hold-Out、k折交叉验证、分层k折交叉验证、留一交叉验证

scikit-learn库中的GridSearchCV

class sklearn.model_selection.GridSearchCV

穷举搜索指定的参数值的估计。

estimator：estimator object

param_grid：dict or list of dictionaries

scoring：str, callable, list/tuple or dict, default=None

n_jobs：int, default=None

要并行运行的作业数量。None表示一个，除非在joblib.parallel_backend环境下。-1表示使用所有处理器。更多细节请参见 Glossary 。

pre_dispatch：int, or str, default=n_jobs

控制并行执行期间分派的作业的数量。当分配的作业多于cpu能够处理的任务时，减少这个数量有助于避免内存消耗激增。该参数可以为：
- None：在这种情况下，将立即创建并派生所有作业。将此用于轻量级和快速运行的作业，以避免由于随需生成作业而造成的延迟；
- int：给出生成的作业总数的确切数目；
- str：给定一个n_jobs的函数，如’ 2*n_jobs ’

iid：bool, default=False

如果为True，则返回跨folds的平均得分，以每个测试集的样本数为权重。在这种情况下，假设数据跨folds分布相同，最小的损失是每个样本的总损失，而不是跨folds的平均损失。

自版本0.22以来已弃用:参数iid在0.22中已弃用，将在0.24中删除

cv：int, cross-validation generator or an iterable, default=None

确定交叉验证分割策略。cv可能的输入有：
- None：使用默认的5折交叉验证；
- integer：指定(分层的)KFold中的折叠数；
- CV splitter；
- 可迭代生成(训练、测试)分割为索引数组。
对于None或integer，如果估计器是一个分类器，并且y是二分类的或多类的，则使用StratifiedKFold，在所有其他情况下，使用KFold。参考用户指南，了解这里可以使用的各种交叉验证策略。

refit：bool, str, or callable, default=True

使用找到的最佳参数在整个数据集上重新构造一个估计器。
对于多指标评估，这需要是一个str，表示用于在最后重新构建评估器的最佳参数的记分员。
在选择最佳估计器时除了考虑最大得分之外，可以将refit设置为一个函数，该函数返回所选的best_index_给定cv_results_。在这种情况下，best_estimator_和best_params_将根据返回的best_index_设置，而best_score_属性将不可用。
修改后的估计器可以在best_estimator_属性处使用，并允许在这个GridSearchCV实例上直接使用predict。
同样，对于多重度量评估，属性best_index_、best_score_和best_params_只有在refit被设置并且它们都将被确定为w.r时才可用。就是这个特定的得分手。

verbose：integer

error_score：‘raise’ or numeric, default=np.nan

在估计量拟合中出现错误时分配给分数的值。如果设置为“raise”，则会引发错误。如果给定数值，则会发出FitFailedWarning。此参数不会影响refit步骤，因为它总是会引发错误。

return_train_score：bool, default=False

如果为False，则cv_results_属性将不包含训练分数。计算训练分数是用来了解不同的参数设置如何影响过拟合/不拟合的权衡。然而，计算训练集上的分数可能会有很高的计算成本，并且不需要严格地选择能产生最佳泛化性能的参数。

cv_results_：dict of numpy (masked) ndarrays

一种dict，以键作为列标题，以值作为列元素，可以导入到pandas DataFrame中。
键值“params”用于存储所有候选参数的参数设置列表。
mean_fit_time、std_fit_time、mean_score_time和std_score_time的单位都是秒。
- 对于多度量评估，所有记分者的分数都在cv_results_ dict中以记分者名字结尾的键处可用(’_<scorer_name>’)，而不是上面显示的’_score’。(“split0_test_precision”,“mean_train_precision”等等)。