Bias(偏差),Variance(方差),Error(误差)

本文深入探讨了机器学习中Bias(偏差)与Variance(方差)的概念,解释了它们如何影响模型的精度与稳定性,并提出了如何平衡两者以达到最佳模型效果的方法。

一、Bias(偏差)

Bias描述的是根据样本拟合出的模型的输出值与真实值之间的差距,就是模型在样本上拟合的好坏。Bias反映了模型本身的精准度。

Bias越小,即模型在样本上拟合的越好。但是若要减小Bias,则就要增加模型的复杂度,即增加模型的参数,但这样可能会产生过拟合(overfitting)。过拟合是指模型在样本上能够获得很好的拟合,但是在测试集上却不能很好的拟合数据。过拟合即对应Variance过大。

二、Variance(方差)

Variance描述的是在样本上训练出来的模型在测试集上的表现。即多个测试集在模型上的拟合的分散程度。Variance反映了模型的稳定性。

Variance越小,即模型在测试集上的表现越好。但是若要减小Variance,就要减小模型的复杂度,即减少模型参数,但是这样容易产生欠拟合(unfitting)。欠拟合指的是模型在样本上拟合就很差,那在测试集上的拟合就更差了。欠拟合即对应Bias过大。

(如下图,明显右图比左图更分散些,即说明右图模型的Variance比左图要大)

总结:如果用打靶举例,存在偏差相当于没有瞄准靶心,存在方差相当于瞄准了靶心,但是射歪了。偏差决定是否瞄准了靶心,方差决定你射靶很多次的分散程度。

 过拟合(低Bias,高Variance)                         欠拟合(低Variance,高Bias)

                    

三、Error(误差)

Error=Bias+Variance,即反映了整个模型的准确度。如何才能取到最小的Error呢?如下图,我们需要找到一个可以取得最优解的点。

 

Bias Variance Dilemma,即偏差方差困境,是机器学习中的一个重要概念。在训练模型,我们希望模型能够很好地拟合训练数据,同也要具有很好的泛化能力,即能够对未见过的数据进行准确的预测。但是,在实际应用中,模型可能会出现两种问题,即偏差方差偏差指的是模型对训练数据的拟合程度不够好,无法很好地捕捉数据中的关系。而方差则指的是模型过度拟合了训练数据,导致对未见过的数据的预测准确度下降。 为了更好地理解偏差方差,我们可以将测试误差分解为偏差方差之和的形式: $Error(x) = Bias^2(x) + Variance(x) + \epsilon$ 其中,$Error(x)$ 表示在输入为 $x$ 的测试误差,$Bias(x)$ 表示模型预测结果与真实结果之间的偏差,$Variance(x)$ 表示模型预测结果的方差,$\epsilon$ 表示噪声的影响。 推导过程如下: 首先,我们有一个真实的数据分布 $y=f(x)+\epsilon$,其中 $f(x)$ 表示真实的关系,$\epsilon$ 表示噪声。 假设我们使用一个模型 $h(x)$ 来拟合真实的数据分布,那么预测结果为 $\hat{y}=h(x)$。 预测结果与真实结果之间的误差为: $Err(x) = \hat{y} - y = h(x) - f(x) - \epsilon$ 对上式进行求平方,并对误差取期望,得到: $E[(Err(x))^2] = E[(h(x)-f(x)-\epsilon)^2]$ 将上式展开,得到: $E[(Err(x))^2] = E[h(x)^2] + E[f(x)^2] + E[\epsilon^2] - 2E[h(x)f(x)] - 2E[h(x)\epsilon] + 2E[f(x)\epsilon]$ 根据方差和协方差的定义,可以将上式进一步拆分为: $E[(Err(x))^2] = [E[h(x)] - f(x)]^2 + E[h(x)^2] - [E[h(x)] - f(x)]^2 + E[\epsilon^2]$ $+ 2[E[h(x)f(x)] - E[h(x)]f(x)] - 2[E[h(x)\epsilon] - E[h(x)]E[\epsilon]] + 2[E[f(x)\epsilon] - f(x)E[\epsilon]]$ 整理后,得到: $E[(Err(x))^2] = Bias^2[x] + Variance[x] + \epsilon$ 其中,$Bias[x] = E[h(x)] - f(x)$ 表示偏差,$Variance[x] = E[h(x)^2] - E[h(x)]^2$ 表示方差,$\epsilon$ 表示噪声。 从上式可以看出,测试误差可以分解为偏差方差和噪声三部分。偏差方差之间存在一种权衡关系,即减小偏差会增加方差,减小方差会增加偏差。因此,我们需要在偏差方差之间寻求一个平衡,以获得更好的泛化能力。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值