如何使用Sklearn.KFold和Split,生成训练和验证集？

最新推荐文章于 2025-03-17 09:55:09 发布

原创

最新推荐文章于 2025-03-17 09:55:09 发布

· 4.9k 阅读

22 ·

版权

文章标签：

#sklearn #python

使用Sklearn 进行K折交叉验证，代码咋写呢

开始正文

先导入需要的库

import pandas as pd
import numpy as np
from sklearn.model_selection import KFold

读入数据，可以用 pd.read_csv(‘路径名’)。这里就假设数据。假设有5个训练样本x，各对应着一个标签y.
下面代码的y_train是numpy.ndarray 类型，为了使用列表进行索引方便。

y_train = np.array([1,0

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

煦煦向前

关注关注

9
点赞
踩
22

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

K折交叉验证的使用之KFold和split函数

weixin_42621901的博客

08-03

1万+

使用方法： # 导入方式 from sklearn.model_selection import KFold KFold(n_split, random_state, shuffle) 参数： n_split：需要划分多少折数 shuffle：是否进行数据打乱 random_state：随机数 skf = KFold(n_splits=10, random_state=233, shuffle=True) KFold()方法中的split()： split(a,b)：方法会根据折数对a和b进行划分。

Python：K折交叉验证，将数据集分成训练集与测试集

陈嘿萌的博客

09-30

3374

""" 对图像进行交叉验证, 用于检验分类效果对每个类别的n张图像进行交叉验证分类获取数据集从而在训练网络时进行交叉验证输入:数据集路径保存数据集的位置 k折交叉验证输出:k个数据集将一个数据集分成k份,其中由k-1份组成训练集余下1份组成测试集 """ import os import shutil import time from sklearn.model_selection import KFold def remove_DS(files): """ 处理:删

4 条评论您还未登录，请先登录后发表或查看评论

【scikit-learn】sklearn.model_selection.train_test_split() 函数：数据集拆分为训练集和测试集

最新发布

彬彬侠的博客

03-17

1019

train_test_split是sklearn.model_selection提供的数据集拆分函数，用于将数据集随机拆分为训练集和测试集，适用于模型训练与评估。如果数据类别不均衡，建议使用stratify=y确保类别比例一致。如果数据量较少，可使用KFold交叉验证提高模型稳定性。

训练集 验证集_sklearn 划分测试集和训练集函数区别

weixin_39542850的博客

01-14

723

1、KFoldfrom sklearn.model_selection import KFold kf = KFold(n_splits=3) X = np.ones(10) y = [0, 0, 1, 1, 0, 0, 1, 1, 1, 1] for train, test in kf.split(X): print("%s %s" % (train, test)) # [4...

KFold.split的使用

流觞时光

07-14

982

因为设置的K为5，所以输出共有5部分，每部分由（训练数据索引，验证数据索引）组成。要实现K折交叉验证法有一个很方便的工具：KFold.split。

关于sklearn.model_selected中的KFold.split的理解

Jack_kun的博客

12-24

1万+

关于sklearn.model_selected中的KFold.split的理解作用：返回样本切分之后数据集的indices，即索引返回： train: ndarray。如果KFold设置shuffle参数是True，是混乱的。 test: ndarray。如果KFold设置shuffle参数是True/False，是按照顺序连续！！示例 ab_range = np.ar...

交叉验证——sklearn.model_selection.KFold

Longtermevolution的博客

08-20

3968

最近使用python进行数据集的划分。使用到了交叉验证（Cross-validation），需要整理sklearn.model_selection.KFold函数的参数设定和使用实例。整理如下： 1、Cross-validation交叉验证附注：官方文档链接：https://scikit-learn.org/dev/modules/cross_validation...

sklearn.KFold

q337100的博客

07-05

5886

K折交叉验证：将样本切成K份，每次取其中一份做为测试集，剩余的K-1份做为训练集。在sklearn.model_selection 中提供了几种K折交叉验证。生成样本 &gt;&gt;&gt; from sklearn.datasets import make_classification &gt;&gt;&gt; data,target=make_classification(n_...

Python sklearn KFold 生成交叉验证数据集的方法

09-19

`split()` 方法返回一个生成器，每次迭代会得到一个训练集和测试集的索引列表。值得注意的是，这里的 train_idx 和 test_idx 并非数据子集，而是原始数据集的索引。你需要根据这些索引来切分原始数据集。在某些...

python kfold交叉验证_Python sklearn KFold 生成交叉验证数据集

weixin_29771573的博客

02-09

1368

源起：1.我要做交叉验证，需要每个训练集和测试集都保持相同的样本分布比例，直接用sklearn提供的KFold并不能满足这个需求。2.将生成的交叉验证数据集保存成CSV文件，而不是直接用sklearn训练分类模型。3.在编码过程中有一的误区需要注意：这个sklearn官方给出的文档>>> import numpy as np>>> from sklearn.mo...

sklearn 各种交叉验证方法、验证集两种设定方法、神器GridSearchCV

qq_24854953的博客

09-10

5270

内容概要训练集/测试集分割用于模型验证的缺点 – &gt; 各种交叉验证的方法交叉验证用于选择调节参数、选择模型、选择特征 验证集的作用及自动和手动设定并行化调参 – &gt; GridSearchCV应用训练集/测试集分割用于模型验证的缺点对于监督学习而言，我们希望模型对于未知数据的泛化能力强，所以需要多模型验证这一过程，选择相对好的模型。为了解决用全部数据进...

阅读源码系列：sklearn中train_test_split使用及源码学习

有问题请直接说问题就好

08-30

2836

sklearn中train_test_split使用方法和源码学习

Python Scikit-learn简介（二）

余生的博客

11-21

1072

特征提取是将原始数据转换为更适合机器学习模型的特征表示。Scikit-learn提供了多种特征提取工具，如。机器学习的数据，可以划分为训练集、验证集和测试集，也可以划分为训练集和测试集。数据清洗是数据预处理的第一步，涉及处理缺失值、重复数据、异常值等。标准化和归一化是调整特征尺度的重要步骤，有助于提高某些算法的性能。处理缺失值是数据预处理中的常见任务。Scikit-learn提供了。用于文本数据的词频统计。

Scikit-learn的K-fold交叉验证类ShuffleSplit、GroupShuffleSplit用法介绍

热门推荐

YQ的博客

06-26

2万+

当样本数据量比较小时，K-fold交叉验证是训练、评价模型时的常用方法，本文介绍Scikit-learn的可用于K-fold交叉验证的集合划分类ShuffleSplit、GroupShuffleSplit的用法。

sklearn的交叉验证

MT的博客

08-08

674

交叉验证是用来观察模型的稳定性的一种方法，我们将数据划分为n份，依次使用其中一份作为测试集，其他n-1份作为训练集，多次计算模型的精确性来评估模型的平均准确程度。训练集和测试集的划分会干扰模型的结果，因此用交叉验证n次的结果求出的平均值，是对模型效果的一个更好的度量。一般的划分比例为70%训练集，15%验证集，15%测试集，但具体比例可以根据数据集的大小和任务需求进行调整。此外，对于交叉验证的使用sklearn的工具来进行数据划分，测试集和训练集在7:3的比例。

sklearn的train_test_split()各函数参数含义解释（非常全）

weixin_30646315的博客

08-02

4393

sklearn之train_test_split()函数各参数含义（非常全）在机器学习中，我们通常将原始数据按照比例分割为“测试集”和“训练集”，从 sklearn.model_selection 中调用train_test_split 函数简单用法如下： X_train,X_test, y_train, y_test =sklearn.model_selection.tra...

数据集的划分——Python实现

weixin_45366750的博客

07-21

7575

评估方法性能度量

K折交叉验证，KFold和StratifiedKFold

m0_57201352的博客

08-18

756

交叉验证

交叉验证之KFold和StratifiedKFold的使用（附案例实战）

m0_64336780的博客

04-25

2万+

交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。那么什么时候才需要交叉验证呢？交叉验证用在数据不是很充足的时候。通常情况下，如果数据样本量小于一万条，我们就会采用交叉验证来训练优化选择模型。

from sklearn.linear_model import LogisticRegression from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 生成示例数据 X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=0, random_state=42) # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 创建Logit模型 model = LogisticRegression() # 训练模型 model.fit(X_train, y_train) # 预测 y_pred = model.predict(X_test) # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print(f"Accuracy: {accuracy}")

03-08

这段代码展示了如何使用 `scikit-learn` 库构建、训练和评估一个逻辑回归分类模型。下面是详细的步骤说明以及每个部分的作用： ### 1. 导入必要的库 ```python from sklearn.linear_model import LogisticRegression from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score ``` **解释：** - **`LogisticRegression`**: 用于创建逻辑回归分类器。 - **`make_classification`**: 函数用来生成合成的分类数据集，方便快速原型设计和测试算法性能。 - **`train_test_split`**: 将原始数据划分为训练集和验证（或测试）集的功能函数。 - **`accuracy_score`**: 计算预测结果相对于真实标签的准确度得分。 ### 2. 数据准备 - 合成示例数据 ```python X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=0, random_state=42) ``` **参数解析：** - **`n_samples`**: 总样本数，这里是1000个样例。 - **`n_features`**: 每条记录包含多少特征值，即维度大小为10维空间中的点。 - **`n_informative`**: 对于目标变量具有区分性的有效特征数目为5个。 - **`n_redundant`**: 不含多余无意义的信息列数量设置为零。 - **`random_state`**: 设置随机种子保证每次运行得到相同的结果便于复现实验过程。 ### 3. 数据分割 - 构建训练集与测试集 ```python X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) ``` **关键点：** - 测试集中保留了原总数据量的20% (`test_size=0.2`) ，其余作为训练用途； - 继续沿用相同的随机状态(`random_state=42`)确保划分一致性； ### 4. 创建并初始化逻辑回归模型实例 ```python model = LogisticRegression() ``` 这里我们直接调用了默认构造方法来建立一个新的逻辑回归分类器对象。 ### 5. 训练阶段 - 学习模式规律 ```python model.fit(X_train, y_train) ``` 将预处理后的输入矩阵 `X_train` 和对应的类别标记向量 `y_train` 提供给模型去“学习”。 ### 6. 推理阶段 - 得出未知样本的输出猜测 ```python y_pred = model.predict(X_test) ``` 基于之前的训练成果对未曾见过的新批次观测值做出响应式判定。 ### 7. 结果评价 - 衡量预测质量 ```python accuracy = accuracy_score(y_test, y_pred) print(f"Accuracy: {accuracy}") ``` 利用实际答案 `y_test` 跟机器推论出来的估计 `y_pred` 相比较从而计算总体上的平均正确比例。 --- #### 注意事项及优化建议: - **交叉验证(Cross Validation)** : 单次拆分可能导致运气成分影响评测准确性，因此可引入K折交验机制增加稳健性。 - **超参调整(Hyperparameter Tuning)** ：比如正则化强度C的选择等，可通过网格搜索(Grid Search)找到最优配置。 - **更多指标(More Metrics)** ：除了精度外还可以关注召回率(recall)，F1分数(F1-score), AUC曲线面积(AUROC)等等全面考察模型表现优劣。 --- #### 示例改进版本: 加入简单的交叉验证以提高可靠性，并打印更多信息辅助理解整个流程： ```python import numpy as np from sklearn.linear_model import LogisticRegression from sklearn.datasets import make_classification from sklearn.model_selection import cross_val_score, StratifiedKFold from sklearn.metrics import classification_report # ... [省略前面不变的部分] ... kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) scores = cross_val_score(model, X_train, y_train, cv=kfold, scoring="accuracy") print("Cross-validation scores:", scores) print(f"Average CV Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2)) # 最终在全部训练好的基础上再做一次完整预测并报告详细统计信息 final_predictions = model.predict(X_test) report = classification_report(y_test, final_predictions) print(report) ``` 上述代码不仅提供了更稳定的性能测量手段(通过多次循环取均值得到更加可信的评分范围），还增加了丰富的评估内容帮助诊断潜在弱点所在之处。 ---