k折划分数据

最新推荐文章于 2021-11-22 16:49:02 发布

原创

最新推荐文章于 2021-11-22 16:49:02 发布 · 519 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #机器学习 #深度学习 #python

本文介绍了在数据分析和机器学习中，如何使用K折、StratifiedKFold及StratifiedGroupKFold进行数据划分。通过示例csv文件说明了如何处理具有分组和标签的数据集。

采用 K 折交叉验证之前需要先划分好数据，这里记录一下各种 K 折划分数据的方法

文章目录

0. 示例 csv
1. KFold
2. StratifiedKFold
3. StratifiedGroupKFold

0. 示例 csv

构造一个 example.csv 为例，其中 image_name 为特征，patient_id 为分组，target 为标签。

1. KFold

太简单不写了

2. StratifiedKFold

import os
import numpy as np
import pandas as pd
from sklearn.model_selection import StratifiedKFold

k = 3  # 将分为 3 折
df = pd.read_csv('example.csv')
df.insert(len(df.columns), 'StratifiedKFold', np.nan)

skf = StratifiedKFold(n_splits=k, shuffle=True, random_state=2020)
for fold, (train_ids, valid_ids) in enumerate(skf.split(X=np.zeros(len(df)), y=df['target']),
                                              start=1):
    df.loc[valid_ids, 'StratifiedKFold'] = fold
    
# 保存
df.to_csv('example_skf.csv')

# 看看 fold == 1 作为验证集时，训练集和验证集的标签计数
df = pd.read_csv('example_skf.csv', index_col=0)
train_df = df[df['StratifiedKFold'] != 1]
valid_df = df[df['StratifiedKFold'] ==