一、交叉检验cross-validation(CV):
以k-fold CV为例:在k个fold中,每个fold依次作为测试集、余下的作为训练集,进行k次训练,得到共计k个参数。把k个参数的均值作为模型的最终参数。

优点:最大特点是不再浪费validation set大小的数据。在样本集不够大的情况下尤其珍贵。
缺点:相同大小的数据集,需要进行更多的运算。
二、使用cross-validation函数
参数:
sklearn.model_selection.cross_val_score(
estimator, # 自己选定的模型;
X, # array类型数据。训练集(自变量部分);
y=None, # 训练集(因变量部分);
groups=None,
scoring=None,
cv=’warn’, # 默认值3,即k-fold=3。int类型设定cross-validation的维度,
n_jobs=None,
verbose=0,
fit_params=None,
pre_dispatch=‘2*n_jobs’,
error_score=’raise-deprecating’)
使用多次KNN算法进行结果预测
from sklearn import datasets
from sklearn.model_selection import train_test_split,cross_val_score #划分数据交叉验证
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt
iris = datasets.load_iris()
X = iris.data

本文介绍了交叉验证,特别是k-fold CV的概念。通过k次训练和测试,它能更充分利用数据,尤其在样本量有限时。同时,文章讨论了交叉验证的优缺点,并提及在实际应用中如何使用交叉验证函数进行多次预测。
最低0.47元/天 解锁文章
365

被折叠的 条评论
为什么被折叠?



