偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。
参考:Understanding the Bias-Variance Tradeoff
作者:Jason Gu
链接:https://www.zhihu.com/question/20448464/answer/20039077
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
偏差描述的是模型倾向同类预测错误的程度,方差描述的是模型在做同类预测时出现的波动程度(可参考 Jason Gu 的图例)。这两个度量都与模型的泛化误差相关,两者值越小,对应的泛化误差也就越小。举个例子:对于一个非线性分类问题而言(如XOR),简单的线性分类器(无维度空间映射)由于自身特性并不能较好地进行类别划分,model会出现较大的偏差;而决策树模型作为非线性分类器,能较好的拟合训练样本,偏差值较小,但若模型过于拟合训练样本,测试样本出现了训练样本考虑不周的情况,则容易出现预测误差,即方差值较高。对于一个model而言,我们当然希望泛化误差越小越好,可以通过一些方法来减小上述的偏差和方差。例如,常见的random forest通过采样和融合多棵决策树来减小泛化误差。当然了,这是学术研究的一个方向,方法有很多。
作者:知乎用户
链接: