模型校准曲线(Calibration Curve),也称为可靠性曲线(Reliability Curve)或概率校准曲线(Probability Calibration Curve),是一种评估分类模型输出概率准确性的图形工具。它可以帮助我们理解模型的预测概率是否与实际标签的分布一致。校准曲线通常包括以下步骤:
-
计算模型预测概率:对于测试集中的每个样本,模型会输出一个概率值,表示样本属于正类的概率。
-
将数据分桶:将这些概率值分成若干个等宽的桶(例如10个桶),每个桶中的样本具有相似的预测概率。
-
计算每个桶的平均预测概率和实际正类比例:对于每个桶,计算桶内样本的平均预测概率和实际的正类比例(即标签为正的样本数除以桶内总样本数)。
-
绘制校准曲线:将每个桶的平均预测概率作为x轴,实际正类比例作为y轴,绘制散点图。理想情况下,这些点应该接近于一条斜率为1的直线,这表示模型的预测概率与实际标签完全一致。
-
(可选)绘制理想校准曲线:绘制一条斜率为1的直线,作为理想校准曲线,以便与实际校准曲线进行比较。
在Python中,你可以使用scikit-learn
库中的calibration
模块来绘制校准曲线。以下是一个使用scikit-learn
绘制校准曲线的示例代码:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.calibration import calibration_curve
from sklearn.datasets import make_classification
from sklearn.model_selection import