机器学习中的回归与分类模型详解
1. 二元变量图(Bivariate Plots)
在逻辑回归中,最重要的诊断方法之一是观察单一自变量各水平下的实际概率和预测概率的表现。这种图被称为二元变量图,因为它绘制了实际概率和预测概率这两个变量相对于单一自变量水平的关系。该图有三个重要输入:
- 实际概率 :目标水平在自变量每个类别中的先验比例。
- 预测概率 :模型给出的概率。
- 频率 :分类变量的频率(观测数量)。
这个图本质上告诉我们模型在分类变量的不同水平上的表现。对于连续变量,我们可以通过分箱的方式将其应用同样的思想。
以下是绘制二元变量图的代码示例:
# 假设已经有了逻辑回归模型 Model_logistic 和数据 Data_Logistic
source("actual_pred_plot.R")
MODEL_PREDICTION <- predict(Model_logistic, Data_Logistic, type = 'response')
Data_Logistic$MODEL_PREDICTION <- MODEL_PREDICTION
# 打印会员积分(MembershipPoints)的图
actual_pred_plot(var.by = as.character("MembershipPoints"),
var.response = 'choice',
da