Task4 模型训练与验证
1 训练集、验证集和测试集
训练集(Train Set):模型用于训练和调整模型参数
验证集(Validation Set):用来验证模型精度和调整模型超参数
测试集(Test Set):验证模型的泛化能力

假设用一个长方形表示训练数据,我们通常会将这些数据划分成三部分,一部分作为训练集(Train Set),一部分作为验证集(Validation Set),最后一部分则作为测试集(Test Set)。
在机器学习发展的小数据量时代,常见做法是将所有数据三七分,就是人们常说的 70% 训练集,30%测试集,如果没有明确设置验证集,也可以按照 60%训练集,20%验证集和 20%测试集来划分。
但是在大数据时代,我们现在的数据量可能是百万级别,那么验证集和测试集占数据总 量的比例会趋向于变得更小。假设我们有 100 万条数据,其中 1 万条作为验证集,1 万条作为测试集, 100 万里取 1 万,比例是 1%,即:训练集占 98%,验证集和测试集各占 1%。
验证集的划分有如下几种方式:
留出法(Hold-Out)
直接将训练集划分成两部分,新的训练集和验证集。这种划分方式的优点是最为直接简单;缺点是只得到了一份验证集,有可能导致模型在验证集上过拟合。留出法应用场景是数据量比较大的情况。
交叉验证法(Cross Validation,CV)
将训练集划分成K份,将其中的K-1份作为训练集,剩余的1份作为验证集,循环K训练。这种划分方式是所有的训练集都是验证集,最终模型验证精度是K份平均得到。这种方式的优点是验证集精度比较可靠,训练K次可以得到K个有多样性差异的模型;CV验证的缺点是需要训练K次,不适合数据量很大的情况。
自助采样法(BootStrap)
通过有放回的采样方式得到新的训练集和验证集,每次的训练集和验证集都是有区别的。这种划分方式一般适用于数据量较小的情况。
2

本文介绍了机器学习中的模型训练与验证,包括训练集、验证集和测试集的划分,如70/30或60/20比例。随着数据量增加,验证集和测试集占比变小。讨论了留出法、交叉验证法和自助采样法三种验证集划分方法,以及欠拟合和过拟合的概念。
最低0.47元/天 解锁文章
392

被折叠的 条评论
为什么被折叠?



