26、分类性能评估与航班延误预测分析

最新推荐文章于 2025-12-02 18:20:13 发布

sprite

最新推荐文章于 2025-12-02 18:20:13 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘赋能商业智能文章标签：分类性能评估逻辑回归混淆矩阵

本文链接：https://blog.youkuaiyun.com/sprite/article/details/155018282

数据挖掘赋能商业智能专栏收录该内容

41 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

分类性能评估与航班延误预测分析

1. 分类性能评估

在评估逻辑回归模型的性能时，我们通常会使用一些通用的性能指标。这些指标中，基于混淆矩阵（单独的准确率或结合成本）和提升图的指标最为常用。我们的目标是找到一个仅使用预测变量信息就能准确将记录分类到其所属类别的模型。有时，我们也会关注排序，即找到一个能更好地识别特定类别成员的模型，不过这可能会牺牲一定的整体准确率。

由于训练数据用于模型选择，我们期望模型在这些数据上表现良好，因此更倾向于在验证集上测试其性能。验证集中的数据未参与模型构建，所以可以用来测试模型对未“见过”的数据的分类能力。

要从逻辑回归分析中获得混淆矩阵，我们需要使用估计方程来预测验证集中每个记录的类别归属概率（倾向值），然后使用阈值来确定这些记录的类别分配。接着，将这些分类结果与记录的实际类别进行比较。

以环球银行的案例为例，我们使用方程（10.10）中的估计模型来预测包含2000名客户的验证集中客户接受贷款提议的概率。具体操作是，先使用方程（10.10）中的估计模型预测对数几率（logit），然后通过关系 $p = \frac{e^{logit}}{1 + e^{logit}}$ 获得概率 $p$。再将这些概率与选定的阈值进行比较，将2000条验证记录分类为接受者或非接受者。

以下是使用逻辑回归生成预测概率的代码：

# use predict() with type = "response" to compute predicted probabilities.
logit.reg.pred <- predict(logit.reg, valid.

会员秒杀 ¥9.9 重磅福利

超级会员免费看