正文
1、过拟合与欠拟合
对于包含噪音的数据集,进行数据拟合的时候,总能找到一条曲线穿过所有样本点,使得模型的预测结果与给定训练集内的样本真实标签完全一致,取得极低的预测误差;但这意味着算法所训练的模型过多的表达了数据之间的噪音关系,称为 过拟合(over fitting)。欠拟合(under fitting) 则表明算法所训练的模型不能完整表述数据关系。
则如果模型拟合程度不高,意味着模型没有很好地捕捉到数据特征,从而也不能够很好地用于生产环境。 在多项式回归预测分析中,选择过高或过低的幂来构造特征,就会产生欠拟合和过拟合的问题。
2 模型泛化能力
模型的泛化能力(generalization ability) 指的是训练出来的模型对新样例的预测能力。如果预测效果非常差,称模型的泛化能力弱。一个好的算法模型需要拥有较强的的泛化能力。这也是模型训练和测试的意义需要将原始采样数据拆分出 训练集 和 测试集 来训练和评估模型的泛化能力。
两种不同的算法模型的 模型泛化能力评估 简单的可使用在测试集上的 均方误差 (MSE = ∑i=1m(y(i)−y(i)^)2\sum_{i=1}^{m}{(y^{(i)} - \hat {y^{(i)}})^{2}}∑i=1m(y(i)