(1)什么是过度拟合问题?
在线性回归中的过拟合例子:
图1:是一个线性模型,欠拟合或者叫做高偏差,不能很好地适应我们的训练集;我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。
图2:恰当合适的拟合了数据
图3:完美的拟合了训练数据,称之为过拟合或者叫做高方差,过于强调拟合原始数据,而丢失了算法的本质:预测新数据。我们可以看出,若给出一个新的值使之预测,它将表现的很差,是过拟合,虽然能非常好地适应我们的训练集但在新输入变量进行预测时可能会效果不好。
换句话说就是:训练出的假设函数能很好的拟合数据集,可能会使代价函数非常接近零或等于零,千方百计的拟合数据集,就会导致模型预测新样本(没有出现在训练集的样本)的能力降低。
在Logistic回归中的过拟合例子:
图1:欠拟合或者叫做高偏差
图2:恰当合适的拟合了数据
图3:过拟合或者叫做高方差