一、拟合 欠拟合 过拟合
1.拟合:
根据训练样本中学习出适用于所有潜在样本的“普遍规律”,这样在遇到新样本时做出正确的判别,即具有很好的泛化能力。
2.欠拟合
是指对训练样本的一般性质没有学好,即无法更好的判别测试样本。
3.过拟合
当学习器把训练样本学习的很“优秀”,即在训练集上表现优秀,近似完美的预测或者区分出了所有的数据,但是在新的测试样本集却无法正确预测或者区分,缺乏泛化能力。
二、解决过拟合和欠拟合的问题
1.针对欠拟合问题:
欠拟合通常是由于学习能力低下造成的,欠拟合比较容易克服,增大数据量;
例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数。
2.针对过拟合问题:
导致过拟合的因素有很多,其中最常见的情况是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了;
过拟合问题是机器学习面临的关键障碍,各类学习算法都必然带有一些针对过拟合的措施,但是过拟合问题是无法彻底避免的,只能减小其风险。
了解知识:
a.多项式时间:
我们所认为的有效的学习算法必然是在多项式时间内运行完成。(若是非多项式级的复杂,其计算的复杂度计算机往往不能承受,往往会超时,除非数据的规模非常小)b.P问题、NP问题、NPC问题、NP难问题