ROC曲线

http://blog.youkuaiyun.com/sinat_26917383/article/details/51114244

http://blog.youkuaiyun.com/dingming001/article/details/72956044

http://blog.youkuaiyun.com/solo7773/article/details/8699693




自己运算

  1. # 做一个logistic回归,生成概率预测值  
  2. model1 <- glm(y~., data=newdata, family='binomial')  
  3. pre <- predict(model1,type='response')  
  4. # 将预测概率prob和实际结果y放在一个数据框中  
  5. data <- data.frame(prob=pre,obs=newdata$y)  
  6. # 按预测概率从低到高排序  
  7. data <- data[order(data$prob),]  
  8. n <- nrow(data)  
  9. tpr <- fpr <- rep(0,n)  
  10. # 根据不同的临界值threshold来计算TPR和FPR,之后绘制成图  
  11. for (i in 1:n) {  
  12.     threshold <- data$prob[i]  
  13.     tp <- sum(data$prob > threshold & data$obs == 1)  
  14.     fp <- sum(data$prob > threshold & data$obs == 0)  
  15.     tn <- sum(data$prob < threshold & data$obs == 0)  
  16.     fn <- sum(data$prob < threshold & data$obs == 1)  
  17.     tpr[i] <- tp/(tp+fn) # 真正率  
  18.     fpr[i] <- fp/(tn+fp) # 假正率  
  19. }  
  20. plot(fpr,tpr,type='l')  
  21. abline(a=0,b=1)  

2、ROCR包

R中也有专门用来绘制ROC曲线的包,例如常见的ROCR包,它不仅可以用来画图,还能计算ROC曲线下面积AUC,以评价分类器的综合性能,该数值取0-1之间,越大越好。



  1. library(ROCR)  
  2. pred <- prediction(pre,newdata$y)  
  3. performance(pred,'auc')@y.values #AUC值  
  4. perf <- performance(pred,'tpr','fpr')  
  5. plot(perf)  

注意:其中pre是分类器预测的模型,而newdata$y是实际值。


3、pROC包


ROCR包画图函数功能比较单一,笔者比较偏好使用功能更强大的pROC包。它可以方便比较两个分类器,还能自动标注出最优的临界点,图看起来也比较漂亮


  1. library(pROC)  
  2. modelroc <- roc(newdata$y,pre)  
  3. plot(modelroc, print.auc=TRUE, auc.polygon=TRUE, grid=c(0.1, 0.2),  
  4.      grid.col=c("green", "red"), max.auc.polygon=TRUE,  
  5.      auc.polygon.col="skyblue", print.thres=TRUE)  


R语言绘制ROC曲线如何画在一个图中

library("pROC")

data(aSAH) 加载R语言自带的数据

roc1 <- roc(myData$label, myData$score)

roc2 <- roc(myData2$label, myData2$score)

plot(roc1, col="blue")

plot.roc(roc2, add=TRUE, col="red") 在上图中继续添加ROC曲线


head(aSAH)
            roc(aSAH$outcome, aSAH$s100b)  
            roc(aSAH$outcome, aSAH$s100b, plot=TRUE, print.thres=TRUE, print.auc=TRUE)  



 

R语言利用caret包比较ROC曲线

control = trainControl(method = "repaetedcv",

number = 10,

repeats =3,

classProbs = TRUE,

summaryFunction = twoClassSummary)

glm.model = train(churn ~ .,

data= trainset,

method = "glm",

metric = "ROC",

trControl = control)

svm.model = train(churn ~ ., data= trainset, method = "svmRadial",

metric = "ROC", trControl = control)

rpart.model = train(churn ~ ., data = trainset, method = "svmRadial",

metric = "ROC", trControl = control)


glm.probs = predict(glm.model,testset[,!names(testset) %in% c("churn")],type = "prob")

svm.probs = predict(svm.model,testset[,!names(testset) %in% c("churn")],type = "prob")

rpart.probs = predict(rpart.model,testset[,!names(testset) %in% c("churn")],type = "prob")

生成每个模型的ROC曲线,将它们绘制在一个图中:

glm.ROC = roc(response = testset[,c("churn")],

predictor = glm.probs$yes,

levels = levels(testset[,c("churn")]))

plot(glm.ROC,type = "S",col = "red")

svm.ROC = roc(response = testset[,c("churn")],

predictor = svm.probs$yes,

levels = levels(testset[,c("churn")]))

plot(svm.ROC,add = TRUE,col = "green")

rpart.ROC = roc(response = testset[,c("churn")],

predictor = rpart.probs$yes,

levels = levels(testset[,c("churn")]))

plot(rpart.ROC,add = TRUE,col = "blue")








### ROC 曲线概述 ROC 曲线(Receiver Operating Characteristic Curve),即接收者操作特征曲线,是一种广泛应用于机器学习领域中的工具,用于评估二分类模型的性能。该曲线通过绘制不同分类阈值下的假阳性率(False Positive Rate, FPR)和真阳性率(True Positive Rate, TPR)来展现模型的表现[^1]。 #### 基本定义 - **FPR (False Positive Rate)**:表示负样本被错误地预测为正类的比例。 \[ FPR = \frac{FP}{FP + TN} \] - **TPR (True Positive Rate)** 或称为敏感度(Sensitivity)、召回率(Recall):表示实际为正类的样本中,被正确识别为正类的比例。 \[ TPR = \frac{TP}{TP + FN} \] 其中: - \( TP \) 表示真正例数; - \( FP \) 表示假正例数; - \( TN \) 表示真反例数; - \( FN \) 表示假反例数; 通过改变分类器的决策阈值,可以计算出一系列的 \( FPR \) 和 \( TPR \),并将它们绘制成一条二维曲线,这就是 ROC 曲线[^1]。 --- ### AUC 的概念及其意义 AUC 是指 ROC 曲线下的面积(Area Under the Curve)。AUC 被用来量化模型的整体性能。通常情况下,AUC 的取值范围在 0 到 1 之间: - 当 AUC 接近于 1 时,表明模型具有很强的区分能力; - 当 AUC 等于 0.5 时,意味着模型无法有效地区分正类和负类; - 如果 AUC 小于 0.5,则可能说明模型存在严重的偏差或者数据标签颠倒的情况[^1]。 --- ### ROC 曲线的实际应用 在 Python 中可以通过 `sklearn.metrics` 提供的功能轻松实现 ROC 曲线的绘制以及 AUC 的计算。以下是具体的操作流程与代码实例: ```python from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import roc_curve, auc import matplotlib.pyplot as plt # 创建模拟数据集 X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42) # 数据划分 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 构建逻辑回归模型并训练 model = LogisticRegression() model.fit(X_train, y_train) # 获取测试集中每个样本属于正类的概率分数 y_scores = model.predict_proba(X_test)[:, 1] # 计算 ROC 曲线的相关参数 fpr, tpr, thresholds = roc_curve(y_test, y_scores) roc_auc = auc(fpr, tpr) # 绘制 ROC 曲线图 plt.figure(figsize=(8, 6)) plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (area = {roc_auc:.2f})') plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--') # 随机猜测基线 plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.05]) plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate') plt.title('Receiver Operating Characteristic Example') plt.legend(loc="lower right") plt.show() ``` 此段代码展示了如何利用逻辑回归构建一个简单的分类模型,并基于测试集上的概率得分生成 ROC 曲线及对应的 AUC 值[^2]。 --- ### 总结 综上所述,ROC 曲线不仅能够直观地反映出分类模型在各种阈值条件下的表现情况,而且还能借助 AUC 来提供一种统一的标准去评判多个模型间的优劣差异。因此,在许多场景下,尤其是涉及不平衡类别分布的任务里,ROC-AUC 成为了不可或缺的重要评价手段之一[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值