机器学习模型的训练过程中,可能会出现3种情况:模型欠拟合、模型正常拟合与模型过拟合。其中模型欠拟合与模型过拟合都是不好的情况。下面将会从不同的角度介绍如何判断模型属于哪种拟合情况。
(1)欠拟合与过拟合表现方式
欠拟合:欠拟合是指不能很好的从训练数据中,学习到有用的数据模式,从而针对训练数据和待预测的数据,均不能获得很好的预测效果。如果使用的训练样本过少,较容易获得欠拟合的训练模型。
正常拟合:模型的正常拟合是指训练得到的模型,可以从训练数据集上学习得到了泛化能力强、预测误差小的模型,同时该模型还可以针对待测试的数据进行良好的预测,获得令人满意的预测效果。
过拟合:过拟合是指过于精确地匹配了特定数据集,导致获得的模型不能良好地拟合其他数据或预测未来的观察结果的现象。模型如果过拟合,会导致模型的偏差很小,但是方差会很大。
上面的介绍可能不能直观的快速了解数据的三种拟合情况,下面分别介绍针对分类问题和回归问题,不同任务下的拟合效果,获得的模型对数据训练后的表示形式。针对二分类问题可以使用分界面,表示所获得的模型与训练数据的表现形式,图1表示三种情况下的数据分界面。
图1 分类问题的三种数据拟合情况
从图1可以发现:欠拟合的数据模型较为简单,因此获得的预测误差也会较大,