29、回归中的过拟合、欠拟合与交叉验证

HH234

于 2025-07-14 12:14:20 发布

阅读量37

点赞数

CC 4.0 BY-SA版权

分类专栏：天文学数据挖掘与机器学习指南文章标签：过拟合欠拟合交叉验证

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/hh234/article/details/149646221

天文学数据挖掘与机器学习指南专栏收录该内容

39 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

回归中的过拟合、欠拟合与交叉验证

1. 过拟合与欠拟合问题引入

在回归分析中，无论是基于贝叶斯方法还是最大似然法，都需要注意一些潜在的问题。回归的最优性很大程度上取决于正确的模型选择。为了判断一个潜在模型是否适合数据，我们可以使用交叉验证方法，它与AIC和BIC等模型选择技术是相辅相成的。

1.1 简单示例模型

为了便于理解，我们考虑一个简单的一维模型，其中 $x$ 和 $y$ 满足以下关系：
[
\begin{cases}
0 \leq x_i \leq 3 \
y_i = x_i \sin(x_i) + \epsilon_i
\end{cases}
]
其中噪声 $\epsilon_i$ 服从正态分布 $\epsilon_i \sim N(0, 0.1)$。

1.2 欠拟合情况

我们先尝试用简单的直线拟合数据。该模型由两个参数描述：直线的斜率 $\theta_1$ 和 $y$ 轴截距 $\theta_0$，通过最小化均方误差来确定：
[
\epsilon = \frac{1}{N} \sum_{i=1}^{N} (y_i - \theta_0 - \theta_1 x_i)^2
]
结果表明，直线拟合效果不佳，它缺乏足够的灵活性来准确建模数据，这种情况被称为模型有高偏差，即欠拟合数据。

1.3 增加模型复杂度

为了改善拟合效果，我们可以增加多项式的次数，使模型更复杂。例如，拟合二次函数、三次函数或一般的 $d$ 次多项式。随着多项式次数的增加，最佳拟合曲线与数据点的匹配度越来越

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。