1. 经验误差
一般在分类问题中,我们把分类错误的样本数占样本总数的比例称作“错误率”,即如果在m个样本中有a个样本分类错误,则错误率为E=a/m;则相对的,1-E称为精度,即精度=1-错误率。
更一般的,我们把学习器的实际预测输出与样本的真实输出之间的差异称为误差,学习器在训练集上的误差称为训练误差或经验误差,在新样本上的误差称为测试误差或泛化误差。
2. 过拟合
不过,当模型把训练样本学得“太好”时,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样会致使泛化性能的下降,这种现象在机器学习中称作“过拟合”,与过拟合相对的是“欠拟合”,欠拟合是指对训练样本的一般性质尚未学好。
3. 导致欠/过拟合的原因
最常见的情况是由于学习能力过于强大,以至于把训练样本包含的不太一般的特性都学到了,而欠拟合通常是由于学习能力不足引起的。
欠拟合较为容易克服,例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等,而过拟合问题的解决较为麻烦,也是机器学习面临的关键障碍,各类学习算法都会有针对过拟合的措施,但是过拟合是无法完全避免的,我们能做的只是“缓解”
有很多种因素可能导致过拟合情况的发生:
一种可能原因是训练样例含有随机错误或噪声,当假设试图拟合含有噪声的训练样例后,学习器的泛化能力自然会受到影响。事实上,当训练数据没有噪声时,过拟合也有可能发生。
一种最常见的情况是由于学习器的学习能力过于强大,以至于把训练样例所包含的不太一般的特性都学到了。
还有一种情况是训练样例太少,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但却与实际的目标函数无关系。一旦这种巧合的规律性存在,就有过拟合的风险。与过拟合相对的是欠拟合,这是指学习器对训练样本的一般性质尚未学好。