理解ROC曲线与AUC：用KNN分类器进行性能评估

2301_80219299

于 2025-04-05 11:25:12 发布

阅读量572

点赞数 6

文章标签： python

本文链接：https://blog.youkuaiyun.com/2301_80219299/article/details/147009205

版权

在机器学习分类任务中，评估模型性能是至关重要的一环。今天，我将通过一个实际的Python示例，带大家了解如何使用ROC曲线和AUC指标来评估K近邻(KNN)分类器的性能。

什么是ROC曲线和AUC？

ROC曲线（Receiver Operating Characteristic curve，受试者工作特征曲线）是一种展示分类模型在所有分类阈值下性能表现的图形化方法。它绘制了真正例率(TPR)和假正例率(FPR)之间的关系：

真正例率(TPR，又称灵敏度)：正例被正确识别的比例
假正例率(FPR)：负例被错误识别为正例的比例

AUC（Area Under the Curve）则是ROC曲线下的面积，提供了模型整体性能的单一数值度量。AUC值越接近1，模型性能越好；0.5表示模型没有区分能力（相当于随机猜测）。

实践示例：KNN分类器的ROC分析

让我们通过代码一步步实现并理解这个过程。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import roc_curve, auc
from sklearn.datasets import make_classification

# 创建一个示例数据集
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)

# 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化KNN分类器并训练
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

# 获取预测的概率
y_probs = knn.predict_proba(X_test)[:, 1]

# 计算ROC曲线的假阳性率(fpr)和真阳性率(tpr)
fpr, tpr, thresholds = roc_curve(y_test, y_probs)

# 计算AUC值
roc_auc = auc(fpr, tpr)

# 绘制ROC曲线
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='blue', lw=2, label='ROC curve (AUC = {:.2f})'.format(roc_auc))
plt.plot([0, 1], [0, 1], color='gray', linestyle='--', lw=2)  # 对角线
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc='lower right')
plt.grid(True)
plt.show()

这段代码生成了ROC曲线图，其中：

蓝色曲线是我们的KNN模型的ROC曲线
灰色虚线表示随机猜测的性能
图例中显示了计算得到的AUC值

运行结果：

如何解读ROC曲线？

曲线越靠近左上角，模型性能越好。理想情况下，我们希望曲线紧贴左上角。
AUC值：
- 1.0：完美分类器
- 0.9-1.0：优秀
- 0.8-0.9：良好
- 0.7-0.8：一般
- 0.6-0.7：较差
- 0.5：无判别能力
对角线表示随机猜测的性能，任何有用的模型都应该在对角线之上。