什么是过度拟合?
首先,我们回忆一下以前学过的对于房价预测的线性回归方程求解
第一种假设的关系式得到的结果:
但是我们可以根据样本得到,随着面积的增长,房价的增长趋于平缓,因此该关系式并不能很好地拟合样本数据,因此我们称之为欠拟合。
当假设函数为二次函数时,它拟合的非常好,叫做恰好拟合。
当用四次方程式去拟合时,我们得到的结果如上,很明显它只对现有样本做了很好的拟合,而并不能很好地泛华,这样的问题,我们称之为过渡拟合。(具有高方差是历史的称号,泛华:指的是一个假设模型能够应用到新样本的能力)
逻辑回归上的案例:
如图是一系列的样本点,我们假设了三种函数
第一种为直线,我们可以直观地看出,直线并不能很好地拟合这些数据
当为二元二次时,我们可以看出它能很好地拟合这些数据,可能是最好的拟合结果
当为一定高阶的时候,就会产生上述的拟合现象,这就是一种过渡拟
发现并解决欠拟合和过拟合
1、绘图
当在变量比较少的情况下,我们可以通过画图直观地发现过拟合和欠拟合问题
但是一旦变量足够多(如下所示)
出现这种情况下的时候,我们无法绘制出适合的图形。
那么有以下几种解决办法:
1、减少变量个数(人工决定留下部分重要的变量,舍弃不太重要的变量)
以后会讲到选择模型算法,这种算法可以自动选择变量【这样会导致我们可能失去部分很重要的信息】
2、正则化