14、机器学习中的偏差 - 方差权衡与k近邻算法

机器学习中的偏差 - 方差权衡与k近邻算法

1. 偏差 - 方差权衡

1.1 偏差与方差的概念

从另一个角度看,过拟合问题可以理解为偏差(bias)和方差(variance)之间的权衡。这两者衡量的是,如果多次使用不同的训练数据集(来自同一总体)重新训练模型,会出现什么情况。

例如,零次模型(degree 0 model)对于任何训练集(来自同一总体)都会产生很多错误,这意味着它具有高偏差。然而,任意两个随机选择的训练集应该会得到非常相似的模型(因为任意两个随机选择的训练集的平均值应该非常相似),所以我们说它具有低方差。高偏差和低方差通常对应于欠拟合。

相反,九次模型(degree 9 model)能完美拟合训练集,它的偏差非常低,但方差非常高(因为任意两个训练集可能会产生非常不同的模型),这对应于过拟合。

1.2 解决模型问题的方法

当模型表现不佳时,思考偏差和方差有助于我们找到解决办法:
- 高偏差 :如果模型具有高偏差(即即使在训练数据上表现也很差),可以尝试添加更多特征。例如,从“过拟合与欠拟合”中的零次模型到一次模型就是一个很大的改进。
- 高方差 :如果模型具有高方差,可以移除一些特征,或者获取更多的数据(如果可能的话)。

在图中,我们用不同大小的样本拟合九次多项式。基于 10 个数据点拟合的模型变化很大,而使用 100 个数据点训练时,过拟合现象会少很多。使用 1000 个数据点训练的模型看起来与一次模型非常相似。在模型复杂度不变的情况下,数据越多,越不容易过拟合。但更多的数据对解决偏

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值