一、什么是AUC?
- 机器学习中的AUC(Area Under the Curve)是一个重要的评估指标,特别是在二分类问题中。
- AUC特指ROC曲线(Receiver Operating Characteristic Curve)下的面积,用于衡量分类器区分正负类的能力。
-
在机器学习和统计分类中,正负类(Positive Class 和 Negative Class)是二分类问题中的两个类别标签。这两个标签是相对的,并没有固定的含义,而是根据具体问题的上下文来定义的。
- 正类(Positive Class):通常用于表示我们感兴趣或希望模型能够正确识别出来的类别。在不同的应用场景中,正类的具体含义可能会有所不同。例如,在医疗诊断中,正类可能代表“患病”;在欺诈检测中,正类可能代表“欺诈行为”;在电子邮件分类中,正类可能代表“垃圾邮件”。
- 负类(Negative Class):则是与正类相对的类别,表示我们不特别感兴趣或希望模型能够识别出来以避免的类别。同样地,负类的具体含义也取决于问题的上下文。继续上面的例子,在医疗诊断中,负类可能代表“健康”;在欺诈检测中,负类可能代表“正常交易”;在电子邮件分类中,负类可能代表“非垃圾邮件”。
-
- AUC值越大,表示模型的性能越好,即模型能够更好地区分正负样本。
1、什么是ROC曲线?
-
ROC曲线(Receiver Operating Characteristic Curve,受试者工作特征曲线)是一种用于评估分类模型性能的图形化方法,特别是在二分类问题中。ROC曲线通过绘制真正例率(True Positive Rate, TPR)与假正例率(False Positive Rate, FPR)的关系来展示模型在不同阈值下的性能。
-
在说明 TPR 和 FPR 是什么意思之前,先来了解一下混淆矩阵
-
混淆矩阵的基本结构如下:
_ 预测为正类别 预测为负类别 实际为正类别 True Positive (TP) False Negative (FN) 实际为负类别 False Positive (FP) True Negative (TN) -
True Positive (TP): 模型将实际为正类别的样本正确预测为正类别。
-
False Negative (FN): 模型将实际为正类别的样本错误预测为负类别。
-
False Positive (FP): 模型将实际为负类别的样本错误预测为正类别。
-
True Negative (TN): 模型将实际为负类别的样本正确预测为负类别。
-
-
真正例率(True Positive Rate, TPR):也称为灵敏度(Sensitivity)或召回率(Recall),是正确预测的正例占所有实际正例的比例。
- TPR=TP / (TP+FN)
其中,TP是真正例的数量,FN是假负例的数量。
- TPR=TP / (TP+FN)