交叉验证后概念:
将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。
使用优点:
1.交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。
2.可以从有限的数据中获取尽可能多的有效信息。
k-fold cross validation method:
- 不重复抽样将原始数据随机分为 k 份。
- 每一次挑选其中 1 份作为测试集,剩余 k-1 份作为训练集用于模型训练。
- 重复第二步 k 次,这样每个子集都有一次机会作为测试集,其余机会作为训练集。
- 在每个训练集上训练后得到一个模型在每个训练集上训练后得到一个模型
- 用这个模型在相应的测试集上测试,计算并保存模型的评估指标
- 计算 k 组测试结果的平均值作为模型精度的估计,并作为当前 k 折交叉验证下模型的性能指标