预测性能评估:方法与实践
1. 引言
在监督学习中,我们关注的是为新记录预测结果变量。主要有三种类型的结果值得关注:
- 预测数值:当结果变量为数值型时,例如房价。
- 预测类别归属:当结果变量为分类型时,例如买家/非买家。
- 倾向得分:当结果变量为分类型时,某记录属于某类别的概率,例如违约倾向。
预测方法用于生成数值预测,而分类方法(分类器)用于生成倾向得分,并通过设定倾向得分的阈值来生成预测的类别归属。需要注意的是,分类器有两种不同的预测用途:分类旨在为新记录预测类别归属;排名则是在一组新记录中找出最有可能属于某一感兴趣类别的记录。
接下来,我们将分别探讨判断用于生成数值预测的预测方法、用于分类的分类器以及用于排名的分类器的有效性的方法,还会讨论在过采样场景下的性能评估。
2. 评估预测性能
2.1 预测准确性与拟合优度
预测准确性与拟合优度不同。传统统计性能指标旨在找到一个能很好拟合训练数据的模型,而在数据挖掘中,我们关注的是模型应用于新记录时的高预测准确性。像 $R^2$ 和估计标准误差等是经典回归建模中常用的指标,残差分析用于衡量拟合优度,但这些指标无法很好地反映模型对新记录的预测能力。
2.2 评估预测性能的指标
评估预测性能通常基于验证集,因为验证集中的记录更类似于未来要预测的记录,它们未用于选择预测变量或估计模型参数。模型在训练数据上进行训练,然后应用于验证数据,通过验证集上的预测误差来计算准确性指标。
2.2.1 朴素基准:平均值
预测的基准标准是使用结果变量的平均值(忽略所有
超级会员免费看
订阅专栏 解锁全文
8万+

被折叠的 条评论
为什么被折叠?



