K-fold划分数据进行训练有k个训练模型，那最终选取哪个模型？

最新推荐文章于 2025-04-10 12:23:41 发布

王蒟蒻

最新推荐文章于 2025-04-10 12:23:41 发布

阅读量1.9k

点赞数 5

分类专栏： # 机器学习实战书籍

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_41413511/article/details/118913972

版权

机器学习实战书籍专栏收录该内容

13 篇文章

订阅专栏

K折交叉验证用于调参，通过将数据分为K份，每次训练k-1份并验证剩下的1份，得到k个得分。模型的平均误差用于评估稳定性。最终选取平均误差最低的模型，用全部训练数据重新训练得到最终学习器。此过程确保每个数据都被训练和验证，提高模型泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题： K-fold划分数据进行训练有k个训练模型，那最终选取哪个模型？还有为什么要计算所有模型的平均误差？

这些验证的目的是为了调参，最终选取的模型是通过调好的参数在所有数据上训练得到的模型
我们进行k-fold是将数据划分为k折，每次取k-1的数据训练然后在剩下的一份验证打分，这样经过k轮后就得到一个模型的k个得分（注意“模型”只有一个，当你确定具体算法和参数组合以后就确定了模型，而模型拟合数据得到的是学习器（比如分类器，你可以理解为模型的具体实例）），那为什么要取平均呢，其实在前面说过单独取部分数据作为验证集来验证可能结果不稳定，不具代表性，所以我们做了k次验证，而且每次以k-1组数据训练、剩余一组验证就保证我们把原始的训练集都使用了一遍，每个数据都作为训练数据、测试数据被使用过，现在对这k个学习器的得分取个平均分来代表这个模型的表现就有说服力了，而对于其他模型（不同模型比如SVM和决策树或者统一模型的不同参数组合）分别进行k折交叉验证，每一个模型都得到各自学习器的平均得分，我们通过比较这些模型的平均得分就能知道最佳的一个模型是哪一个，最终就把这个模型（算法及参数组合）拿出来重新用全部训练集训练得到最后的学习器，然后对测试数据作出预测，整个过程大概是这样，注意区分“模型”与“学习器”，“参数”与“超参数”

博客等级

码龄7年

276
原创

691
点赞

2800
收藏

4651
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 前端三件套简介（HTML\CSS\JS）

下一篇：: 一文搞懂软件工程需求分析

最新评论

原码、反码、补码知识详细讲解
做而论道_CS: 零的补码，就是：零，正数（＋X）的补码，就是：0 ＋ X，负数（－X）的补码，就是：0 － X。另外：在绝对值相同时，正数的补码、负数的补码，互相转换的方法是 “减一取反”。例如：求－13 的补码。解：先减一：＋13 －1 = 12 = 0000 1100 (二进制)。再取反，即得：1111 0011。完事！老外的算术水平太洼了，哪会算这些呀！百般无奈，只好编造了： “机器数真值有符号数符号位正零负零原码反码补码正数三码相同负数取反加一符号位不变模同余符号位也参加运算时针倒拨正拨 ... ” 跟着老外学算术，立刻、马上，直接，就掉沟里去了！当然，是计算机老师，先掉沟里的，拿这些当教材。大学生，都是被老师拽到沟里的。
差错控制区别（数据链路层、传输层、网络层）
L_ilobeme: 网络层的校验只用于针对网络层的头部，这里是指对IP首部嘛
变量重复包含问题
Samuel.CC: 我的是，换库出现的问题，请问有什么解决办法吗
1602液晶移动
wasdzxcvbnm1512: 很棒，我按书上的抄都没抄明白
简单梳理软件维护相关知识
Ustinian661: 话说你电软件工程期末有没有真题

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

王蒟蒻 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。