[深度学习-2.1] 训练集、验证集和测试集

博客介绍了训练集、验证集和测试集设置的原因,是为找到高性能神经网络,合理配置能提高循环效率。还解释了三者区别,训练集拟合数据,验证集评估模型调超参数,测试集评价泛化能力。最后给出不同数据量下的划分方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

为什么要设置训练集、验证集和测试集

  在训练一个神经网路的时候,通常我们最初并不知道怎么样的超参数配置才能让我得到一个高性能的网络,这些超参数包括神经网络的层数每一层的神经元数量每层的激活函数选择以及学习率等。所以一般的做法都是先构建一个具有特定结构的神经网络,然后编程实现,接下来根据程序的输出结果来更新自己方案以找到更好的神经网络。
  也就是重复下面这样一个过程

  因此更高效的循环能够让我们更快的得到一个满足要求的神经网络,而合理的训练集,验证集和测试集的配置则能帮助提高上图这个循环的效率。

三者的解释和区别
  • 训练集(training set) :训练集顾名思义就是用来拟合数据得到一个初步模型的数据部分。
  • 验证集(development set) :验证集是在训练过程中单独划分的少部分样本,目的是对模型进行初步评估,调整相应的超参数。
  • 测试集(test set) :测试集用来评价所得到模型的泛化能力,为了达到这个目的,测试集的数据要保证从未在训练集和验证集中出现过。
具体的划分方式

  在机器学习的小数据量时代(数据量在万这个数量级),常见的做法是将数据三七分,即70%训练集,30%测试集(没有训练集的情况比较常见);还有60%训练集,20%验证集,20%测试集的方式。
  但是在大数据的情况下,假设我们有百万数量级的数据,这时候20%的比例就太高了。常见的比例有98%:1%:1%,或者更低的验证集和测试集的比例都是可行的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值