数据集的划分

  • 数据集的概念

 

  • 数据集的划分

            训练集、验证集、测试集必须同分布,且通过均匀随机抽样的方式将数据无交集地划分为三个集合。

            常见的划分方法:

            1. 按比例划分:通常按8:1:1的比例进行划分

            2. n折交叉检验法/留一法(适用于样本数较少的数据集):将样本数据打乱,分成n份,用n-1份作为训练集,剩下的一份做测试集,循环n次(确保n份数据,每一份都做过测试集),计算平均误差即可得到最终的模型表现评估结果。

 

  • 为什么需要验证集

            训练集用于在每一个epoch中梯度下降(即训练模型),而在每个epoch完成后,使用验证集来测试当前模型的准确率。在所有epoch训练完毕后,使用测试集测试整个模型(所有普通参数都更新完毕)的准确率。

            对于模型来说,参数分为普通参数超参数。在没有引入强化学习的前提下,普通参数是通过梯度下降进行更新的。而超参数(网络层数、神经元个数、迭代次数、学习率等需要人工调参的参数)并不在模型学习的范围,需要验证集协助人工调参。因此,验证集也可以被认为是人工调参的训练集。所以,在评价这个模型的表现时,需要一个从来没用被用于训练的测试集进行测试。

 

reference:

《tensorflow:训练集、测试集、验证集》https://blog.youkuaiyun.com/LUFANGBO/article/details/79308290

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值