模型拟合评估与改进
在数据分析和建模过程中,我们常常会使用各种强大的工具来拟合参数模型。但这些模型在给定数据集上的表现究竟如何呢?这正是我们接下来要探讨的核心内容。
1. 本章目标
在进行模型拟合评估时,我们主要关注模型本身。比如,在一个关于预测变量的线性模型中,线性假设的准确性如何?是否存在极端或错误的观测值影响了模型的拟合效果?而那些仅影响统计推断(如置信区间和显著性检验)的假设,我们暂不考虑。
2. 方法选择
诊断模型拟合效果的方法众多,我们在选择方法时主要基于以下两点考虑:
- 避免依赖样本数据来自正态分布总体假设的统计方法。
- 方法要具有直观清晰性,能够向有一定数学基础但非统计学专业的客户解释清楚。
3. 符号说明
假设我们有数据 $(X_i, Y_i)$,其中 $i = 1, …, n$。$X_i$ 是 $p$ 维向量,$Y_i$ 是标量。通常在本章中,我们不会过多关注这 $n$ 个观测值是否独立。设 $\mu(t) = E(Y | X = t)$ 为总体回归函数,$\hat{\mu}(t)$ 是根据样本数据得到的估计值。
4. 模型拟合检查的目标
当我们询问一个模型是否能很好地拟合数据集时,理想的情况是对于所有的 $t$,$\hat{\mu}(t)$ 都接近 $\mu(t)$。但由于我们并不知道 $\mu(t)$ 的具体值,这只是一个概念性的目标,难以真正验证。不过,它可以作为我们模型检查方法的努力方向。
这里还涉及到过拟合的问题。例如,如果只要求在 $t = X_i$($i = 1, 2, …, n$)时 $\h
超级会员免费看
订阅专栏 解锁全文
1124

被折叠的 条评论
为什么被折叠?



