14、回归中的交叉验证及基函数选择

julia4scientist

于 2025-09-21 16:38:51 发布

阅读量49

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习精要解读文章标签：交叉验证留出法 k折交叉验证

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/julia4scientist/article/details/152446158

机器学习精要解读专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

回归中的交叉验证及基函数选择

1. 过拟合与欠拟合问题诊断

在回归分析中，过拟合和欠拟合是常见的问题。过拟合的模型，如12次多项式模型，虽然能很好地拟合现有数据，但过于复杂且振荡剧烈，无法代表潜在的现象。欠拟合的模型则不能很好地捕捉数据的特征。判断过拟合和欠拟合问题的一个合理标准是，这两种情况都无法很好地表示未来可能收到的新数据，这些新数据与当前数据由相同的过程生成。因此，对于给定的数据集，理想的基特征数量M应该使模型既能很好地拟合当前数据集，又能很好地拟合未来的数据。

2. 留出法交叉验证

由于我们无法获取未来的数据，因此可以通过将现有数据划分为两个子集来模拟这种情况：一个较大的训练集和一个较小的测试集。留出法交叉验证的步骤如下：
1. 数据划分 ：将原始数据随机划分为k个不重叠的部分，选择其中1/k作为测试集，其余k - 1/k作为训练集。通常，测试集占比在1/10到1/3之间。数据集越大且分布越均匀，测试集占比可以越大；数据集越小或噪声越多、分布越差，测试集占比应越小。
2. 模型训练 ：使用不同的M值在训练集上训练模型。
3. 误差评估 ：分别计算每个模型在训练集和测试集上的误差，即训练误差和测试误差。
4. 模型选择 ：选择测试误差最小的模型。
5. 最终训练 ：使用最优的M值，在整个数据集（包括训练集和测试集）上训练最终的模型。

例如，对于一个包含30个点的数据集，我们将其随机划分为k = 3个大小相等的子集

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。