模型过拟合及模型泛化误差评估

本文深入探讨了模型过拟合的原因,包括噪声和样本缺乏代表性,并阐述了过拟合与多重比较过程的关系。文章还介绍了泛化误差的四种估计方法:再代入估计、结合模型复杂度、估计统计上界和使用确认集,以帮助在模型建立过程中更好地理解和控制泛化误差。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天我们来深入探讨过拟合的一些高阶知识。

对于分类模型,我们总希望它是有低的训练误差和低的泛化误差。那么过拟合的产生机理中有哪些有意思的东西?在建立一个分类模型的过程中我们暂时对检验数据集一无所知(也就是暂时得不到真正泛化误差),那么此时我们是如何估计泛化误差的?

我们的目录:

目录

一、过拟合产生原因

二、过拟合与多重比较过程

三、泛化误差估计


一、过拟合产生原因

噪声导致过拟合:1、被错误标记的样本形成的噪声。那真的是自己粗心大意的锅,无话可说了。2、有些特例,比如有些会飞的动物也会游泳,那就尴尬了,这种没有事先知识的特例,是允许存在的,是不可避免的,它也决定了分类器可以达到的最小错误率。

缺乏代表性样本导致过拟合:这个是最常见的现象,大家也很了解了。此处就不废话。

二、过拟合与多重比较过程

我们来看下Pang-Ning Tan等学者是如何举例描述过拟合和多重比较过程的关系的:(需要大家先了解决策树算法:《

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值