机器学习中的交叉验证

最新推荐文章于 2025-07-08 13:15:13 发布

原创

最新推荐文章于 2025-07-08 13:15:13 发布 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #算法 #人工智能

当数据集较小的时候,希望有更多的数据用于模型的训练,但又无法获得数据时,交叉验证就是一种较好的重复利用数据的方式.

交叉验证，目的是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。

在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。

简单的训练集和测试集的分割

把整个数据集分成两部分，一部分用于训练，一部分用于验证，这也就是我们经常提到的训练集（training set）和测试集（test set）。

缺点

1)最终模型与参数的选取将极大程度依赖于你对训练集和测试集的划分方法。

2)该方法只用了部分数据进行模型的训练

交叉验证

1.简单交叉验证。首先，我们随机的将样本数据分为两部分（比如： 70%的训练集，30%的测试集），然后用训练集来训练模型，在测试集上验证模型及参数。接着，我们再把样本打乱，重新选择训练集和测试集，继续训练数据和检验模型。最后我们选择损失函数评估最优的模型和参数。

2.S折交叉验证（S-Folder Cross Validation）。和第一种方法不同，S折交叉验证会把样本数据随机的分成S份，不重复地每次取其中一份做测试集，用其他S-1份做训练集。并将S次的平均交叉验证识别正确率作为结果

3.留一交叉验证（Leave-one-out Cross Validation），它是第二种情况的特例，此时S等S于样本数N，这样对于N个样本，每次选择N-1个样本来训练数据，留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况，比如对于普通适中问题，N小于50时，一般采用留一交叉验证。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。