一、Bias(偏差)
Bias描述的是根据样本拟合出的模型的输出值与真实值之间的差距,就是模型在样本上拟合的好坏。Bias反映了模型本身的精准度。
Bias越小,即模型在样本上拟合的越好。但是若要减小Bias,则就要增加模型的复杂度,即增加模型的参数,但这样可能会产生过拟合(overfitting)。过拟合是指模型在样本上能够获得很好的拟合,但是在测试集上却不能很好的拟合数据。过拟合即对应Variance过大。
二、Variance(方差)
Variance描述的是在样本上训练出来的模型在测试集上的表现。即多个测试集在模型上的拟合的分散程度。Variance反映了模型的稳定性。
Variance越小,即模型在测试集上的表现越好。但是若要减小Variance,就要减小模型的复杂度,即减少模型参数,但是这样容易产生欠拟合(unfitting)。欠拟合指的是模型在样本上拟合就很差,那在测试集上的拟合就更差了。欠拟合即对应Bias过大。
(如下图,明显右图比左图更分散些,即说明右图模型的Variance比左图要大)
总结:如果用打靶举例,存在偏差相当于没有瞄准靶心,存在方差相当于瞄准了靶心,但是射歪了。偏差决定是否瞄准了靶心,方差决定你射靶很多次的分散程度。
过拟合(低Bias,高Variance) 欠拟合(低Variance,高Bias)
三、Error(误差)
Error=Bias+Variance,即反映了整个模型的准确度。如何才能取到最小的Error呢?如下图,我们需要找到一个可以取得最优解的点。