《机器学习》—— AUC评估指标

张小生180

已于 2024-08-26 09:03:30 修改

阅读量6.2k

点赞数 63

CC 4.0 BY-SA版权

文章标签：机器学习人工智能

于 2024-08-23 00:53:11 首次发布

一、什么是AUC？

机器学习中的AUC（Area Under the Curve）是一个重要的评估指标，特别是在二分类问题中。
AUC特指ROC曲线（Receiver Operating Characteristic Curve）下的面积，用于衡量分类器区分正负类的能力。
- 在机器学习和统计分类中，正负类（Positive Class 和 Negative Class）是二分类问题中的两个类别标签。这两个标签是相对的，并没有固定的含义，而是根据具体问题的上下文来定义的。
  - 正类（Positive Class）：通常用于表示我们感兴趣或希望模型能够正确识别出来的类别。在不同的应用场景中，正类的具体含义可能会有所不同。例如，在医疗诊断中，正类可能代表“患病”；在欺诈检测中，正类可能代表“欺诈行为”；在电子邮件分类中，正类可能代表“垃圾邮件”。
  - 负类（Negative Class）：则是与正类相对的类别，表示我们不特别感兴趣或希望模型能够识别出来以避免的类别。同样地，负类的具体含义也取决于问题的上下文。继续上面的例子，在医疗诊断中，负类可能代表“健康”；在欺诈检测中，负类可能代表“正常交易”；在电子邮件分类中，负类可能代表“非垃圾邮件”。
AUC值越大，表示模型的性能越好，即模型能够更好地区分正负样本。

ROC曲线（Receiver Operating Characteristic Curve，受试者工作特征曲线）是一种用于评估分类模型性能的图形化方法，特别是在二分类问题中。ROC曲线通过绘制真正例率（True Positive Rate, TPR）与假正例率（False Positive Rate, FPR）的关系来展示模型在不同阈值下的性能。

在说明 TPR 和 FPR 是什么意思之前，先来了解一下混淆矩阵

混淆矩阵的基本结构如下：

_	预测为正类别	预测为负类别
实际为正类别	True Positive (TP)	False Negative (FN)
实际为负类别	False Positive (FP)	True Negative (TN)

真正例率（True Positive Rate, TPR）：也称为灵敏度（Sensitivity）或召回率（Recall），是正确预测的正例占所有实际正例的比例。
- TPR=TP / (TP+FN)
  
  其中，TP是真正例的数量，FN是假负例的数量。
假正例率（False Positive Rate, FPR）：是错误预测为正例的负例占所有实际负例的比例。
- FPR= FP / (FP+TN)
  
  其中，FP是假正例的数量，TN是真负例的数量。
阈值（Threshold）：在分类问题中，模型通常会输出一个介于0和1之间的概率值，表示属于某个类别的概率。通过设置不同的阈值（比如0.5），可以将概率值转换为