pytorch-Train-Val-Test划分（下）

最新推荐文章于 2025-12-18 19:14:55 发布

转载最新推荐文章于 2025-12-18 19:14:55 发布 · 3k 阅读

5 ·

CC 4.0 BY-SA版权

原文链接：https://cloud.tencent.com/developer/article/1539732

文章标签：

#pytorch

人工智能同时被 2 个专栏收录

2 篇文章

订阅专栏

数据

0 篇文章

订阅专栏

本文详细介绍了如何在PyTorch中将数据集划分为训练集、验证集和测试集，通过代码示例展示了随机划分的方法，并讨论了K-fold交叉验证在提高神经网络泛化能力上的应用。

部署运行你感兴趣的模型镜像

pytorch-Train-Val-Test划分（下）

2019-11-17阅读 2860

上半节讲到一个数据集正常需要划分为train、validation和test三个数据集，那么具体到代码中是如何实现的？

需要注意的是正常代码提供的是两种划分，即train和test两部分，我们在划分train的数据集中再划分为两部分，即可设定val数据集。

代码如下

print('train:', len(train_db), 'test:', len(test_db))
# 首先先查看train和test数据集的数量，看看是否满足预订的分配目标
train_db, val_db = torch.utils.data.random_split(train_db, [50000, 10000])
# 随机分配法将数据分为50k和10k的数量
train_loader = torch.utils.data.DataLoader(
    train_db,
    batch_size = batch_size, shuffle=True)
# 将数据喂给Loader中
val_loader = torch.utils.data.DataLoader(
    val_db,
    batch_size = batch_size, shuffle=True)

那么这种划分方式也会有一些问题，如下图，假设我们得到的总数据量为70k。

1620 正在上传…重新上传取消

那么此时test set中的数据是无法使用的，这样便只有50K+10K的数据集可以供给神经网络学习，而还有10K的val数据集无法用于backward。因此为增加数据量，使函数模型更准确，我们使用K-fold cross-validation法，将这60K数据重新随机划分出50K的train set和10K的Val set。如下图所示

1620 正在上传…重新上传取消