交叉验证（Cross-Validation） - CV

最新推荐文章于 2025-09-27 06:39:14 发布

原创

最新推荐文章于 2025-09-27 06:39:14 发布 · 4.8k 阅读

·

0

·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。

文章标签：

交叉验证

这不是某一个方法的名称，而是一类方法的统称，主要形式是把训练集分成两部分，一部分是用来训练模型，另一部门用来验证模型，相当于一份数据集被分为训练集和验证集，这样做主要是因为数据集中可能会有一些样本不平衡导致模型过拟合，增加验证集来验证模型，通过这种方法来了解模型的泛化能力。

普通验证方法

按比例将数据集划分，比如8:2、7:3这样的比例将数据集划分，大的一头数据集用来训练，少的数据用来验证。但这样存在一个问题就是数据集如何划分，如果是随机划分，在分类任务中，万一将数据集中负类都划分到验证集中，那么模型的泛化能力就太弱了，在验证集上划分就非常不准。

交叉验证方法

1.LOOCV方法（Leave-one-out cross-validation）

假设我们现在有n个数据组成的数据集，那么LOOCV的方法就是每次取出一个数据作为测试集的唯一元素，而其他n-1个数据都作为训练集用于训练模型和调参。结果就是我们最终训练了n个模型，每次都能得到一个MSE。而计算最终test MSE则就是将这n个MSE取平均。

优点
首先它不受测试集合训练集划分方法的影响，因为每一个数据都单独的做过测试集。
缺点
计算量巨大，另一个就是拿一个数据集作验证集不够合理，很难验证模型。

2、K折交叉验证（K-fold Cross Validation）

为了解决上面的问题，又有人提出了K折交叉验证，这里不再选择一个样本作为验证集，而是将数据集划分为k份，算法流程如下：

我们假设k=10，也就是将数据集划分为5份
循环抽取一份作为验证集，其他四份作为训练集，每一次循环都会有一个模型训练误差 $MSE_i$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。