1. 经验误差与过拟合
第三张图建立的模型,在训练集中通过x可以很好的预测y,然而我们不能预期该模型能够很好的预
测集外的数据,换句话说,这个模型没有很好的泛化能力。
第一张图建立了一个线性模型,但是该模型并没有精确地捕捉到训练集数据的结构,我们称具有第
一张图较大的偏倚(bias),也称欠拟合。
第三张图通过5次多项式函数很好的对样本进行了拟合,然而,如果将建立的模型进行泛化,并不
能很好的对训练集之外的数据进行预测,也称过拟合。
机器学习的主要挑战在于在未见过的数据输入上表现良好,这个能力称为泛化能力
(generalization)。
误差:学习器实际预测输出与样本真实输出的差异。
训练集误差:训练误差
训练集的补集:泛化误差
测试集误差:测试误差
我们希望得到泛化误差小的学习器。
过拟合:训练过度使泛化能力下降。
欠拟合:未能学好训练样本的普遍规律。
过拟合是机器学习的关键障碍,且不可避免。
模型误差包含了数据误差,