误差、欠拟合和过拟合

    通常我们把分类错误的样本数占样本总数的比例称为“错误率”。更一般的,我们把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为“训练误差”,在新样本上的误差称为“泛化误差”。我们希望的是在新样本上能表现得很好的学习器。为了达到这个目的,应该从训练样本中尽可能学得适用于所有潜在样本的“普遍规律”,这样才能在遇到新样本时做出正确的判断。

    然而,当学习器把训练样本学得“太好”的时候,很可能把训练样本自身的特点当作了潜在样本也具有的一般性质,这样会导致泛化性能下降,这种现象叫“过拟合”。与之相对的是“欠拟合”。欠拟合比较容易克服,例如在决策树学习中扩展分支、在神经网络中增加训练轮数等,而过拟合则很麻烦。过拟合是机器学习面临的关键障碍,各类学习算法都必然带有一些针对过拟合的措施;然而必须意识到,过拟合是无法彻底避免的,我们能做的只是“缓解”。

    扯一点题外的:最近组内招聘的时候,有一个有趣的现象,做数据方面(传统etl和数据仓库)的都想转hadoop,可见大数据的火热程度。spark和机器学习正火,阿尔法狗、绝艺、无人汽车搞得如火如荼..我们或许能见证一个新时代的来临。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值