方差:模型输出围绕数据集标签均值波动的情况。
偏差:模型输出偏离数据集标签均值的情况。
高偏差对应欠拟合:训练误差和测试误差都很大。
高方差对应过拟合:训练误差很小,测试误差很大。
(1)多项式阶数和训练集,测试集误差的关系:
(2)正则化系数和训练集,测试集误差的关系:
(3)训练集样本数和训练集,测试集误差的关系:
优化模型性能的步骤:
(1)首先评估模型的性能,根据学习曲线,评估模型是欠拟合还是过拟合。
(2)根据模型评估的结果,选择相应的方法优化模型的性能。
高方差:1)选用更少的特征
2)增大正则化系数
3)增加训练样本数
高偏差:1)更多的特征
2)增加多项式特征
3)减小正则化系数
注:若样本处于高偏差,增加数据集无益于减少训练误差和测试误差。