Overfitting问题
什么是overfitting
从overfitting这个词的字面上看来就是过度拟合,我们知道的,不管什么东西,过度了一般都是不好的。
overfitting:如果我们选取了太多太多的特征,那么通过学习的模型将会几乎完美的拟合我们的训练集,但是同时这将导致模型不能很好的拟合新的样本。(泛化能力低下)
当然光看概念真的是似懂非懂的,接下来配上两幅图你可能就明白了,分别是线性回归和逻辑回归中出现overfitting时的情况。
从上面两幅图可以看出,当我们过多的选取了特征之后,模型经过学习之后能够几乎完美的拟合我们的训练数据,但同时我们的曲线变得弯弯曲曲,非常复杂。
我相信有人会问,为什么复杂的模型就不好呢,如何判断过拟合,如何判断所谓的“不能很好的拟合新的样本”和“泛化能力差”。首先我们需要了解我们训练模型的目的,我们训练模型的目的并不在于要去完美fit我们的训练集,而是在于模型拟合新样本的能力,因为最终我们训练出来的模型是要拿去用的