偏差与方差

本文探讨了偏差-方差分解在解释学习算法泛化性能中的关键作用。通过对算法期望预测、方差、噪声及偏差的概念解析,阐述了它们如何共同决定了算法的泛化能力,并揭示了偏差与方差之间的冲突。

对学习算法除了通过实验估计其性能,人们往往还希望了解它“为什么”具有这样的性能“偏差-方差分解”是解释学习算法泛化性能的一种重要工具

对测试样本 xxx ,令 yDy_DyD 为 x 在数据集中的标记,yyy 为 x 的真实标记,f(x;D)f(x; D)f(x;D) 为训练集 DDD 上学得模型 fff 在 x 上的预测输出。以回归任务为例,算法的期望预测为:

f‾(x)=ED[f(x;D)](1)\overline f(x)=E_D[f(x;D)] \tag{1}f(x)=ED[f(x;D)](1)

使用样本数相同的不同训练集产生的方差为

var(x)=ED[(f(x;D)−f‾(x))2](2)var(x)=E_D[(f(x;D)- \overline f(x))^2] \tag{2}var(x)=ED[(f(x;D)f(x))2](2)

噪声为

ϵ2=ED[(yD−y)2](3)\epsilon^2=E_D[(y_D-y)^2] \tag{3}ϵ2=ED[(yDy)2](3)

期望输出与真实标记的差别称为偏差

bias2(x)=(f‾(x)−y)2(4)bias^2(x)=(\overline f(x) - y)^2 \tag{4}bias2(x)=(f(x)y)2(4)

算法的泛化误差

E(f;D)=bias2(x)+var(x)+ϵ2(5)E(f;D)=bias^2(x)+var(x)+\epsilon^2 \tag{5}E(f;D)=bias2(x)+var(x)+ϵ2(5)

也就是说,泛化误差等于偏差,方差和噪声之和

从公式中可以看出,偏差度量了算法的期望预测与真实结果的偏离程度,即刻画了算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了问题本身的难度。

偏差-方差分解说明,泛化性能由算法能力,数据充分性,任务本身难度所共同决定的。

一般,偏差和方差是有冲突的,称为偏差-方差窘境。

在这里插入图片描述

参考

周志华《机器学习》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值