一、过拟合、欠拟合
第一个模型是一个线性模型,不能很好地适应我们的训练集,对于测试集也不能很好的预测,这就是欠拟合在训练集上对于的是高偏差、低方差;
第三个模型是一个四次方的模型,过于强调拟合原始数据,而对于新的预测数据造成大的偏差,这就造成了过拟合现象,在训练集上对于的是低偏差、高方差。
中间的模型似乎最合适。
二、机器学习诊断、调试学习算法
1、多项式次数d的选择
如图,通过将训练集和交叉验证集的代价函数误差与多项式的次数绘制在同一张图表,由此可以看出:
对于训练集:当 d 较小时,模型拟合程度更低,误差较大;随着 d 的增长,拟合程度提高,误差减小。
对于交叉验证集:当 d 较小时,模型拟合程度低,误差较大;但是随着d的增长,误差呈现先减小后增大的趋势。转折点是模型开始过拟合训练数据集的时候。
结论:
越高次数的多项式模型越容易产生过拟合现象,
而多项式太少的话,又造成欠拟合现象。
2、正则化λ的选择
<