3、统计学习中的外推、过拟合、欠拟合与偏差 - 方差困境

统计学习中的外推、过拟合、欠拟合与偏差 - 方差困境

1. 统计学习中的外推问题

在统计学习里,原始配置通常能满足一定需求,让我们无需立刻从头开始整个训练过程。不过,统计学习存在一个重大问题——外推。

以用多项式近似回归函数为例,我们知道真实的回归函数 (m(x)) 可能是完全不同类型的函数,比如指数函数,这就导致多项式模型可能存在设定错误。在有数据的区间 ([0, 4]) 内,多项式模型或许能较好地近似 (m(x)),但对于训练集特征值 (X_1, \cdots, X_N) 未覆盖或不接近的特征值 (x),使用估计函数 (\hat{m}(x)) 进行预测是很危险的。

虽然在某些情况下,如从研究充分的类似实验或物理定律中获取的额外知识,能让我们对外推有一定信心,但通常外推需要极度谨慎。例如在图 1 的例子中,拟合的三次多项式 (m_3(x; \hat{b}(3))) 在 (0 \leq x \leq 4) 能较好地近似真实函数 (m(x)),但当 (x > 4) 时,三次多项式迅速下降,而真实函数 (m(x)) 却是线性增长的,随着 (x) 超过 4,两者差异会迅速增大,外推会导致严重错误。

如果确实想对远离原始训练集的 (x) 使用函数估计 (\hat{m}(x)),正确的做法是:
1. 围绕 (x) 进行一些额外测量,扩展样本。
2. 基于扩展后的训练集更新 (\hat{m}(x))。

2. 过拟合、欠拟合与偏差 - 方差困境

统计学习过程期望的良好泛化能力与过拟合、欠拟合问题直接相关,而这些问题又与偏差 - 方差困境紧密相连。为避免数据分析得出错误结论,理解统计学习的这些内在特征很重要

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值