数据分析之交叉验证

浮汐

于 2019-09-16 22:21:42 发布

阅读量2.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： python

本文链接：https://blog.youkuaiyun.com/xfxlesson/article/details/100902078

本文介绍了交叉验证，特别是k-fold CV的概念。通过k次训练和测试，它能更充分利用数据，尤其在样本量有限时。同时，文章讨论了交叉验证的优缺点，并提及在实际应用中如何使用交叉验证函数进行多次预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、交叉检验cross-validation（CV）：
以k-fold CV为例：在k个fold中，每个fold依次作为测试集、余下的作为训练集，进行k次训练，得到共计k个参数。把k个参数的均值作为模型的最终参数。
在这里插入图片描述
优点：最大特点是不再浪费validation set大小的数据。在样本集不够大的情况下尤其珍贵。
缺点：相同大小的数据集，需要进行更多的运算。

二、使用cross-validation函数
参数：

sklearn.model_selection.cross_val_score(
estimator,       # 自己选定的模型；
X,               # array类型数据。训练集（自变量部分）；
y=None,          # 训练集（因变量部分）；
groups=None, 
scoring=None, 
cv=’warn’,      # 默认值3，即k-fold=3。int类型设定cross-validation的维度，
n_jobs=None, 
verbose=0, 
fit_params=None, 
pre_dispatch=‘2*n_jobs’, 
error_score=’raise-deprecating’)

使用多次KNN算法进行结果预测

from sklearn import datasets	
from sklearn.model_sele

最低0.47元/天解锁文章