Keras验证集切分

转自:https://www.cnblogs.com/bymo/p/9026198.html

在训练深度学习模型的时候,通常将数据集切分为训练集和验证集.Keras提供了两种评估模型性能的方法:

  • 使用自动切分的验证集
  • 使用手动切分的验证集

一.自动切分

在Keras中,可以从数据集中切分出一部分作为验证集,并且在每次迭代(epoch)时在验证集中评估模型的性能.

具体地,调用model.fit()训练模型时,可通过validation_split参数来指定从数据集中切分出验证集的比例.

# MLP with automatic validation set
from keras.models import Sequential
from keras.layers import Dense
import numpy
# fix random seed for reproducibility
numpy.random.seed(7)
# load pima indians dataset
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")
# split into input (X) and output (Y) variables
X = dataset[:,0:8]
Y = dataset[:,8]
# create model
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
# Compile model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# Fit the model
model.fit(X, Y, validation_split=0.33, epochs=150, batch_size=10)

validation_split:0~1之间的浮点数,用来指定训练集的一定比例数据作为验证集。验证集将不参与训练,并在每个epoch结束后测试的模型的指标,如损失函数、精确度等。

注意,validation_split的划分在shuffle之前,因此如果你的数据本身是有序的,需要先手工打乱再指定validation_split,否则可能会出现验证集样本不均匀。 

二.手动切分

Keras允许在训练模型的时候手动指定验证集.

例如,用sklearn库中的train_test_split()函数将数据集进行切分,然后在kerasmodel.fit()的时候通过validation_data参数指定前面切分出来的验证集.

# MLP with manual validation set
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import train_test_split
import numpy
# fix random seed for reproducibility
seed = 7
numpy.random.seed(seed)
# load pima indians dataset
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")
# split into input (X) and output (Y) variables
X = dataset[:,0:8]
Y = dataset[:,8]
# split into 67% for train and 33% for test
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=seed)
# create model
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
# Compile model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# Fit the model
model.fit(X_train, y_train, validation_data=(X_test,y_test), epochs=150, batch_size=10)

三.K折交叉验证(k-fold cross validation)

将数据集分成k份,每一轮用其中(k-1)份做训练而剩余1份做验证,以这种方式执行k轮,得到k个模型.将k次的性能取平均,作为该算法的整体性能.k一般取值为5或者10.

  • 优点:能比较鲁棒性地评估模型在未知数据上的性能.
  • 缺点:计算复杂度较大.因此,在数据集较大,模型复杂度较高,或者计算资源不是很充沛的情况下,可能不适用,尤其是在训练深度学习模型的时候.

sklearn.model_selection提供了KFold以及RepeatedKFold, LeaveOneOut, LeavePOut, ShuffleSplit, StratifiedKFold, GroupKFold, TimeSeriesSplit等变体.

下面的例子中用的StratifiedKFold采用的是分层抽样,它保证各类别的样本在切割后每一份小数据集中的比例都与原数据集中的比例相同.

# MLP for Pima Indians Dataset with 10-fold cross validation
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import StratifiedKFold
import numpy
# fix random seed for reproducibility
seed = 7
numpy.random.seed(seed)
# load pima indians dataset
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")
# split into input (X) and output (Y) variables
X = dataset[:,0:8]
Y = dataset[:,8]
# define 10-fold cross validation test harness
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=seed)
cvscores = []
for train, test in kfold.split(X, Y):
  # create model
    model = Sequential()
    model.add(Dense(12, input_dim=8, activation='relu'))
    model.add(Dense(8, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    # Compile model
    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
    # Fit the model
    model.fit(X[train], Y[train], epochs=150, batch_size=10, verbose=0)
    # evaluate the model
    scores = model.evaluate(X[test], Y[test], verbose=0)
    print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))
    cvscores.append(scores[1] * 100)
print("%.2f%% (+/- %.2f%%)" % (numpy.mean(cvscores), numpy.std(cvscores)))

参考:

Evaluate the Performance Of Deep Learning Models in Keras

3.1. Cross-validation: evaluating estimator performance — scikit-learn 0.19.1 documentation

sklearn中的交叉验证与参数选择

### 在 TensorFlow 中划分训练集验证集的方法 在机器学习项目中,合理地将数据划分训练集验证集对于防止过拟合至关重要[^1]。TensorFlow 提供了多种方式来完成这一任务,下面详细介绍几种常见的方法。 #### 方法一:使用 `tf.data.Dataset` 的 `take` 和 `skip` 通过手动计算比例并结合 `take` 和 `skip` 函数,可以直接从原始数据集中分离出训练集验证集。 ```python import tensorflow as tf # 假设我们有一个完整的数据集 full_dataset = tf.data.Dataset.range(100) # 示例数据集 # 定义分割比例 validation_size = int(0.2 * 100) # 验证集占总数据的20% # 划分数据集 validation_dataset = full_dataset.take(validation_size) training_dataset = full_dataset.skip(validation_size) print("Training dataset:", list(training_dataset.as_numpy_iterator())) print("Validation dataset:", list(validation_dataset.as_numpy_iterator())) ``` 这种方法简单直观,适用于小型数据集或内存可容纳整个数据的情况[^4]。 --- #### 方法二:使用 `sklearn.model_selection.train_test_split` 虽然这是 Scikit-Learn 的功能,但它可以很好地与其他库配合工作。此方法允许更灵活地控制随机种子和其他参数。 ```python from sklearn.model_selection import train_test_split import numpy as np # 合成一些示例数据 X = np.random.rand(100, 5).astype('float32') # 特征矩阵 y = np.random.randint(0, 2, size=(100,)).astype('int32') # 标签向量 # 按照给定的比例拆分数据 X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42) # 转换为 TensorFlow 数据集对象 train_dataset = tf.data.Dataset.from_tensor_slices((X_train, y_train)) val_dataset = tf.data.Dataset.from_tensor_slices((X_val, y_val)) print(f"Train samples: {len(y_train)}, Val samples: {len(y_val)}") ``` 这种方式特别适合于需要精确控制数据分布的任务,并且能够无缝集成到 TensorFlow 工作流程中[^4]。 --- #### 方法三:使用 Hugging Face 的 `datasets` 库(针对结构化数据) Hugging Face 的 `datasets` 库提供了强大的工具链来进行数据处理和切分。它尤其适合处理 JSON 文件或其他复杂格式的数据[^3]。 以下是一个具体的例子: ```python from datasets import load_dataset import os # 加载本地 JSON 数据文件 data_path = 'path_to_your_data.json' cache_dir = './cached_data' os.makedirs(cache_dir, exist_ok=True) dataset = load_dataset("json", data_files=data_path, cache_dir=cache_dir) # 处理单个样本的函数 def process_example(example): example["processed_text"] = example["text"].strip().lower() # 示例预处理逻辑 return example # 映射预处理逻辑至整个数据集 processed_dataset = dataset.map(process_example, load_from_cache_file=True) # 按一定比例划分训练集验证集 split_dataset = processed_dataset['train'].train_test_split(test_size=0.2) # 输出部分样本来确认结果 print(split_dataset['train'][0]) print(split_dataset['test'][0]) # 转换为 TensorFlow 数据集 train_tf_ds = split_dataset['train'].to_tf_dataset( columns=["processed_text"], label_cols=["label"], shuffle=True, batch_size=8 ) val_tf_ds = split_dataset['test'].to_tf_dataset( columns=["processed_text"], label_cols=["label"], shuffle=False, batch_size=8 ) ``` 该方法非常适合自然语言处理场景下的大规模文本数据管理。 --- #### 方法四:使用 Keras 自带的功能 如果正在使用 Keras API 开发模型,则可以通过内置的 `validation_split` 参数快速实现训练集验证集划分。 ```python import tensorflow as tf from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense # 创建简单的全连接网络 model = Sequential([ Dense(64, activation='relu', input_shape=(784,)), Dense(10, activation='softmax') ]) # 编译模型 model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) # 合成一些示例数据 X = np.random.rand(1000, 784).astype('float32') y = np.random.randint(0, 10, size=(1000,)).astype('int32') # 训练模型时自动划分验证集 history = model.fit(X, y, epochs=10, validation_split=0.2) ``` 注意,这种做法仅限于能够在内存中加载全部数据的小型任务;对于大型分布式数据集可能不够适用。 --- ### 总结 以上介绍了四种不同的策略来解决 TensorFlow 中训练集验证集划分问题。每种方案都有其独特的优势以及局限性,请根据实际需求选择最合适的途径。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值