Cross Validation

最新推荐文章于 2024-11-19 12:21:10 发布

worriia

最新推荐文章于 2024-11-19 12:21:10 发布

阅读量198

点赞数 2

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43948638/article/details/94854585

本文深入解析了交叉验证（CrossValidation）的概念及其在机器学习模型选择中的应用。通过将数据集划分为训练集和验证集，交叉验证能有效评估模型的泛化能力，帮助从多种模型中选择最优解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Cross Validation

什么是Cross Validation？

假设目前已有的数据集全集为D，从中选出一部分作为交叉验证集。

其余集作为训练集，将已有的模型 $A_1$ 在训练集上训练，在验证集上得到 $Error_1$ ，再轮换选出另一部分作为验证集，重复。得到 $E(A1)‾\overline{E(A_1)}$ ，对模型 $A_2$ 同样操作，得到 $E(A2)‾\overline{E(A_2)}$ ，最终选出 $E‾\overline{E}$ 最小的模型A，在全集上训练，得到最终的矩 g 。
为什么需要Cross Validation？

我们已经有了很多的机器学习模型，linear regression，PLA，Pocket，Logistic，同时每种模型又有各种超参数，是否加regularization，learning-rate，Logistic的维数，从中如何选择合适的模型成了重点，因此需要一种评判优劣的标准，如果都在全集上训练，测试，可能无法做到泛化。而留出一部分未被污染的数据作为测试，更客观。
如何使用Cross Validation?
1. 将全集分为几部分，常常分为5或10.
2. 选出一部分作为验证集，取一个模型在其余数据上训练。
3. 在验证集上得到 $Error_1$
4. 轮流去其余部分作为验证集，重复 b，c
5. 得到对应于该模型的 $E(Ai)‾=1N∑n=1NErrorn\overline {E(A_i)}=\frac{1}{N}\sum_{n=1}^N Error_n$
6. 对于其余模型，重复a, b, c, d, e
7. 比较所有模型的 $E(A)‾\overline {E(A)}$ 选出最小的作为最终模型 $A^*$ .
8. 在全集上训练 $A^*$ ，得到合适的参数。确定最终的矩 g .

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。