Bias-Variance Tradeoff(方差、偏差、误差)通俗理解

  • 直译

Bias:偏见,乖离率,偏重

Variance:方差、分歧、不一致

Tradeoff:权衡、参数折衷;(公平)交易;技术经济研究

  • 准确

准确是两个概念:准、确。

准是bias小,就是偏差小;

确是variance小,就是分歧小,一致性强。

Bias和Variance是针对Generalization(一般化,泛化)来说的。

在机器学习中,我们用训练数据集去训练(学习)一个model(模型),通常的做法是定义一个Loss function(误差函数),通过将这个Loss(或者叫error)的最小化过程,来提高模型的性能(performance)。然而我们学习一个模型的目的是为了解决实际的问题(或者说是训练数据集这个领域(field)中的一般化问题),单纯地将训练数据集的loss最小化,并不能保证在解决更一般的问题时模型仍然是最优,甚至不能保证模型是可用的。这个训练数据集的loss与一般化的数据集的loss之间的差异就叫做generalization error。而generalization error又可以细分为Bias和Variance两个部分。

  • 统计误差的理论

在机器学习的模型与数据背后的真实规律之间总会存在差异,在科学人的前提下,这种差异来源还剩下三个:随机误差、偏差、方差。

偏差和方差与欠拟合和过拟合紧密相关。

因为随机误差是不可消除的客观存在,在数学层面就只剩偏差和方差,需要寻求偏差和方差之间的权衡(Bias-Variance Tradeoff)。

  1. 随机误差

随机误差是数据本身的噪音带来的,这种误差是不可避免的。

一般认为随机误差服从高斯分布,记作
ϵ ∼ N ( 0 , σ ϵ ) \epsilon ∼ N(0, \sigma_{\epsilon}) ϵN(0,σϵ)

因此,若有变量 y作为预测值,以及 X 作为自变量(协变量),那么我们将数据背后的真实规律 f 记作
y = f ( X ) + ϵ y = f(X) + \epsilon y=f(X)+ϵ

随机误差是一种自然哲学领域的无可奈何,偏差和方差则是统计学上的一种选择。也就是噪声(Noise)

  1. 偏差Bias

偏差面熟的是通过学习拟合出来的结果的期望,与真实规律之间的差距:
B i a s ( X ) = E [ f ^ ( X ) ] − f ( X ) Bias(X) = E[\hat{f}(X)] - f(X) Bias(X)=E[

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值