《Python机器学习基础教程》第五章模型评估与改进5.15 深度解析：ROC曲线与AUC在二分类问题中的应用-优快云博客

本文链接：https://blog.youkuaiyun.com/jrckkyy/article/details/146438999

在这里插入图片描述

5.15 深度解析：ROC曲线与AUC在二分类问题中的应用

原理介绍

ROC曲线的概念

ROC曲线（Receiver Operating Characteristic Curve）是一种用于评估二分类模型性能的工具。它通过绘制真阳性率（True Positive Rate, TPR）和假阳性率（False Positive Rate, FPR）的关系图来展示模型在不同阈值下的表现。TPR和FPR的定义如下：

真阳性率（TPR）：真正例占所有实际正例的比例。
$\text{TPR} = \frac{\text{TP}}{\text{TP} + \text{FN}}$
假阳性率（FPR）：假正例占所有实际负例的比例。
$\text{FPR} = \frac{\text{FP}}{\text{FP} + \text{TN}}$

其中，TP（True Positive）表示真正例，TN（True Negative）表示真负例，FP（False Positive）表示假正例，FN（False Negative）表示假负例。

AUC的概念

AUC（Area Under the ROC Curve）是ROC曲线下方的面积，取值范围从0到1。AUC值越大，模型的区分能力越强。一个完美的分类器的AUC值为1，而一个随机猜测的分类器的AUC值为0.5。

ROC曲线与AUC的应用

模型比较：通过比较不同模型的AUC值，可以评估哪个模型在二分类任务中表现更好。
阈值选择：ROC曲线可以帮助选择合适的阈值，以平衡TPR和FPR。
不平衡数据集：在处理不平衡数据集时，AUC是一个更稳健的评估指标，因为它不受类别分布的影响。

实操代码例子

数据准备与预处理

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_classification

# 生成模拟数据
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)

# 将数据转换为DataFrame
data = pd.DataFrame(X, columns=[f'feature_{i}' for i in range(20)])
data['target'] = y

# 分离特征和目标变量
X = data.drop('target', axis=1)
y = data['target']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 特征缩放
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

绘制ROC曲线

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

# 训练模型
model = LogisticRegression(random_state=42)
model.fit(X_train, y_train)

# 预测概率
y_prob = model.predict_proba(X_test)[:, 1]

# 计算ROC曲线
fpr, tpr, _ = roc_curve(y_test, y_prob)

# 计算AUC值
roc_auc = auc(fpr, tpr)

# 绘制ROC曲线
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

计算AUC值

from sklearn.metrics import roc_auc_score

# 计算AUC值
roc_auc = roc_auc_score(y_test, y_prob)
print("AUC值:", roc_auc)

解释结果

# 打印AUC值
print("AUC值:", roc_auc)

# 解释结果
if roc_auc == 1.0:
    print("完美分类器：模型在所有阈值下都能完全区分正负样本。")
elif roc_auc > 0.5:
    print("较好分类器：模型具有一定的区分能力，但仍有改进空间。")
else:
    print("较差分类器：模型的区分能力较弱，需要进一步优化。")

# 绘制ROC曲线
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

参考文献

资料名称	链接
Scikit-Learn官方文档	https://scikit-learn.org/stable/
《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》	https://www.oreilly.com/library/view/hands-on-machine-learning/9781492032632/
ROC曲线与AUC详解	https://en.wikipedia.org/wiki/Receiver_operating_characteristic
机器学习中的评估指标	https://machinelearningmastery.com/metrics-evaluate-machine-learning-algorithms-python/
ROC曲线与AUC的应用	https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5
不平衡数据集的评估指标	https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/
机器学习实践指南	https://www.coursera.org/learn/machine-learning
机器学习基础教程	https://www.cs.toronto.edu/~hinton/csc2515/notes/lec6tutorial.pdf
ROC曲线与AUC的实际应用	https://towardsdatascience.com/roc-curves-and-auc-in-machine-learning-basics-explained-9d5c11a75ab0