分类性能评估与航班延误预测分析
1. 分类性能评估
在评估逻辑回归模型的性能时,我们通常会使用一些通用的性能指标。这些指标中,基于混淆矩阵(单独的准确率或结合成本)和提升图的指标最为常用。我们的目标是找到一个仅使用预测变量信息就能准确将记录分类到其所属类别的模型。有时,我们也会关注排序,即找到一个能更好地识别特定类别成员的模型,不过这可能会牺牲一定的整体准确率。
由于训练数据用于模型选择,我们期望模型在这些数据上表现良好,因此更倾向于在验证集上测试其性能。验证集中的数据未参与模型构建,所以可以用来测试模型对未“见过”的数据的分类能力。
要从逻辑回归分析中获得混淆矩阵,我们需要使用估计方程来预测验证集中每个记录的类别归属概率(倾向值),然后使用阈值来确定这些记录的类别分配。接着,将这些分类结果与记录的实际类别进行比较。
以环球银行的案例为例,我们使用方程(10.10)中的估计模型来预测包含2000名客户的验证集中客户接受贷款提议的概率。具体操作是,先使用方程(10.10)中的估计模型预测对数几率(logit),然后通过关系 $p = \frac{e^{logit}}{1 + e^{logit}}$ 获得概率 $p$。再将这些概率与选定的阈值进行比较,将2000条验证记录分类为接受者或非接受者。
以下是使用逻辑回归生成预测概率的代码:
# use predict() with type = "response" to compute predicted probabilities.
logit.reg.pred <- predict(logit.reg, valid.
超级会员免费看
订阅专栏 解锁全文
878

被折叠的 条评论
为什么被折叠?



