深度学习--机器学习相关（1）_测试集验证机-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_63860007/article/details/141884301

1.训练集、测试集、验证集

在做一个训练任务的时候，能获取的所有的数据包含两类，一类有特征和标签；另一类有特征没有标签需要预测标签，即测试集。在第一类有特征有标签的数据中，一般会分为训练集和验证集。训练集就是课本，验证集就是模考卷子，测试集就是考试。

最常见的问题就是验证集究竟是否参与到训练过程中。如果不参与，那么岂不是浪费了这些有标签的数据吗?这里引入n-fold 的方法。把所有的给了标签的数据三等分，然后每一份都作为一个验证集，这样每一个验证集对应的训练集应该占全部有标签数据的三分之二，而且每一个训练集和对应的验证集之间的数据不重复。训练3个模型，每一个模型只用训练集数据训练，然后用对应的验证集进行检验，判断模型是否训练完成。最后在预测测试集标签时将3个模型的输出求均值。这样的方法可以增强模型的泛化能力，而且可以利用所有的可用数据并且防止数据泄露问题。