一、交叉检验cross-validation(CV):
以k-fold CV为例:在k个fold中,每个fold依次作为测试集、余下的作为训练集,进行k次训练,得到共计k个参数。把k个参数的均值作为模型的最终参数。
优点:最大特点是不再浪费validation set大小的数据。在样本集不够大的情况下尤其珍贵。
缺点:相同大小的数据集,需要进行更多的运算。
二、使用cross-validation函数
参数:
sklearn.model_selection.cross_val_score(
estimator, # 自己选定的模型;
X, # array类型数据。训练集(自变量部分);
y=None, # 训练集(因变量部分);
groups=None,
scoring=None,
cv=’warn’, # 默认值3,即k-fold=3。int类型设定cross-validation的维度,
n_jobs=None,
verbose=0,
fit_params=None,
pre_dispatch=‘2*n_jobs’,
error_score=’raise-deprecating’)
使用多次KNN算法进行结果预测
from sklearn import datasets
from sklearn.model_sele