K折交叉验证法原理及python实现

本文为原创文章,转载请注明出处!

在训练数据的过程或者参加数据比赛的时候,常常会遇到数据量不够大的情况,在一次比赛过程我学到一个小技巧—K折交叉验证法(k-fold CrossValidation),下面和大家分享一下。

1 变形前的K折


在遇到K折交叉验证之前,往往使用的是简单交叉验证(hold -out cross validation),也就是从全部的训练数据 D中随机选择 d的样例作为训练集 train,剩余的作为测试集 test(红色方框表示)。相信大家一定都非常熟悉,如果还不是很了解赶紧看看大牛Andrew Ng的课程吧。

在这里,数据都只被所用了一次,没有被充分利用

那么,怎样提高数据的利用率呢?

2 K折就是讲数据集切分成K小块,验证集和测试集相互形成补集,循环交替


纽约大学博士Seymour Geisser提出K折交叉验证法,具体步骤如下&#

### K交叉验证的工作原理 K交叉验证是一种用于评估机器学习模型性能的技术。该技术通过将原始数据集划分为\( k \)个互斥子集(称为“叠”),来提供更可靠的结果[^2]。 具体而言,在每次迭代过程中,其中一个叠作为测试集,而剩余的\( k-1 \)个叠组合成训练集。此过程重复执行\( k \)次,使得每个叠恰好充当一次测试集的角色。最终,计算所有\( k \)轮迭代后的平均表现指标以获得整体评价分数[^5]。 这种方不仅提高了估计准确性,还减少了因单一随机分割带来的偏差风险。此外,相较于简单的保留一部分数据作为独立验证集的方式,K交叉验证能够充分利用整个可用的数据资源,从而减少信息浪费并增强结果的一致性和可解释性[^4]。 然而值得注意的是,当处理具有时间顺序特征的时间序列数据时,标准形式的K交叉验证并不适用,因为这种情况下保持样本间的先后关系至关重要。 #### 图形表示 以下是采用五交叉验证的一个简单示意: ``` Fold 1: |----|xxxxx|xxxxx|xxxxx|xxxxx| Fold 2: |xxxxx|----|xxxxx|xxxxx|xxxxx| Fold 3: |xxxxx|xxxxx|----|xxxxx|xxxxx| Fold 4: |xxxxx|xxxxx|xxxxx|----|xxxxx| Fold 5: |xxxxx|xxxxx|xxxxx|xxxxx|----| 注解:"-" 表示当前使用的测试集; "x" 则代表参与本轮训练的部分。 ``` 上述图表展示了如何在一个完整的周期里轮流选取不同的部分作为测试集来进行多轮实验,以此达到全面检验的目的。 ```python from sklearn.datasets import load_iris from sklearn.model_selection import cross_val_score, KFold from sklearn.linear_model import LogisticRegression # 加载鸢尾花数据集 iris = load_iris() X = iris.data Y = iris.target # 创建逻辑回归分类器实例 logreg = LogisticRegression() # 定义五分组策略 kf = KFold(n_splits=5) # 执行交叉验证评分操作 scores = cross_val_score(logreg, X, Y, cv=kf) print(f'Cross Validation Scores are {scores}') print(f'Average Cross Validation score :{scores.mean()}') ```
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值