最小二乘回归中,目标函数只考虑了模型对训练样本的拟合程度:
原则上任意复杂的模型能完全拟合训练数据。我们称之为过拟合。
• 过拟合( overfitting ):过于复杂的模型与训练数据拟合得太好,但和测试数据拟合得不好。
• 欠拟合(underfitting):过于简单的模型与训练数据拟合得欠佳(和测试数据自然也拟合得不好)
注意:线性回归中采用线性模型。而线性模型是很简单的模型,所以当特征维数不是太高时,线性回归的过拟合现象通常不太严重。
举例说明:
sin曲线拟合
上图可以看到,绿色正弦曲线为真实值,蓝色圆点为模拟数据集。
红色曲线为在不同阶多项式的情况下,拟合的效果。
可以看到,阶数越多,对于数据集的拟合效果越好,但是不一定与真实值越接近。
我们另外生成100个数据作为测试集,检验模型: