回归中的过拟合、欠拟合与交叉验证
1. 过拟合与欠拟合问题引入
在回归分析中,无论是基于贝叶斯方法还是最大似然法,都需要注意一些潜在的问题。回归的最优性很大程度上取决于正确的模型选择。为了判断一个潜在模型是否适合数据,我们可以使用交叉验证方法,它与AIC和BIC等模型选择技术是相辅相成的。
1.1 简单示例模型
为了便于理解,我们考虑一个简单的一维模型,其中 $x$ 和 $y$ 满足以下关系:
[
\begin{cases}
0 \leq x_i \leq 3 \
y_i = x_i \sin(x_i) + \epsilon_i
\end{cases}
]
其中噪声 $\epsilon_i$ 服从正态分布 $\epsilon_i \sim N(0, 0.1)$。
1.2 欠拟合情况
我们先尝试用简单的直线拟合数据。该模型由两个参数描述:直线的斜率 $\theta_1$ 和 $y$ 轴截距 $\theta_0$,通过最小化均方误差来确定:
[
\epsilon = \frac{1}{N} \sum_{i=1}^{N} (y_i - \theta_0 - \theta_1 x_i)^2
]
结果表明,直线拟合效果不佳,它缺乏足够的灵活性来准确建模数据,这种情况被称为模型有高偏差,即欠拟合数据。
1.3 增加模型复杂度
为了改善拟合效果,我们可以增加多项式的次数,使模型更复杂。例如,拟合二次函数、三次函数或一般的 $d$ 次多项式。随着多项式次数的增加,最佳拟合曲线与数据点的匹配度越来越