ROC (Receiver Operating Characteristic) 曲线和 AUC (Area Under the Curve) 面积是评估分类模型性能常用的指标之一。在本文中,我们将详细介绍 ROC 曲线和 AUC 面积的原理,并提供用于计算和绘制 ROC 曲线的示例代码。
ROC 曲线的原理
ROC 曲线是一种用于可视化二分类模型性能的工具。它将分类模型在不同阈值下的真阳性率(True Positive Rate,TPR)与假阳性率(False Positive Rate,FPR)之间的关系进行绘制。TPR 是指在实际为正例的样本中,模型正确预测为正例的比例,即 TPR = TP / (TP + FN),其中 TP 表示真阳性,FN 表示假阴性。FPR 是指在实际为负例的样本中,模型错误预测为正例的比例,即 FPR = FP / (FP + TN),其中 FP 表示假阳性,TN 表示真阴性。
ROC 曲线的横轴表示 FPR,纵轴表示 TPR。理想情况下,分类器的 ROC 曲线应该尽可能靠近左上角,即 TPR 接近 1,FPR 接近 0。这表示分类器在保持高的真阳性率的同时,尽量降低假阳性率。
AUC 面积的原理
AUC 面积是 ROC 曲线下的面积,取值范围在 0 到 1