model_selection
GridSearchCV是在估计器下对指定参数进行穷举,并计算对应结果
重要的成分是训练与预测(fit and predict)
参数:
- estimator(估计器):提供估计器类别,任意估计器需要有得分函数,或者评价得分函数必须被传递(scoring must be passed);
- param_grid(参数网络):字典或是字典列,键对应参数名称,值对应参数值或范围;
- scoring(衡量):单个字符串(定义好的评估标准)或者一个可调用对象来对测试集上的预测进行评估;
- n_jobs:并行的工作数
- pre_dispacth:在并行计算的时候,控制分派计算的数量;当更多的工作量被分派给CPU的时候,减小这个数量可以避免内存的急剧损耗;这个参数可以是空的,当任务比较轻量级的时候,或者是整型,表示被派出计算的准确数量,也可以是字符串,一般是关于工作数的函数表达式;
- iid:如果是True,在各个参数下(across the folds)数据被认为是同分布的,最小化的损失是每个样本的总损失,而不是各个参数下数据的平均损失;
- cv:决定交叉验证的分割策略,默认3折交叉验证,或者设置成整型代表K折,StratifiedKFold,其他类型的应用KFold;
- refit:用发现的最好的参数训练估计器