ROC介绍及AUC计算方法

本文介绍了ROC曲线及其在二分类问题中的作用,详细阐述了ROC的定义和计算过程,以及AUC(Area Under ROC Curve)作为衡量分类器性能的指标。文章通过三种方法讲解了AUC的计算,并提到了分布式实现AUC的思路。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

近段时间看了下有关ROC和AUC的相关知识,在这里总结一下,有任何不对的地方,欢迎大家指正。

基础知识

针对一个二分类问题,每个测试样本都会有一个真实分类和预测分类,因此可以得到四种结果:

  • 真阳性(true positive):真实值为正,预测值也为正;
  • 假阳性(false positive):真实值为正,预测值为负;
  • 真阴性(true negative):真实值为负,预测值为正;
  • 假阴性(false negative):真实值为负,预测值也为负。

其关系如下图所示:

真阳性率TPR = TP / (TP+FN)
假阳性率FPR = FP / (FP+TN)
真阳性率和假阳性率是ROC最主要的两个基础指标。

ROC介绍

ROC的全名叫做Receiver Operating Characteristic,其主要分析工具是一个画在二维平面上的曲线——ROC curve。

平面的横坐标是false positive rate(FPR),纵坐标是true positive rate(TPR)。将一系列(FPR, TPR)点连接起来,即构成了ROC曲线。那么问题来了,怎么得到这一系列(FPR, TPR)点呢?
在这里引用下Wikipedia上对ROC的定义:

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

针对特定的分类器和测试数据集,如何对测试样本进行分类呢?首先分类器会为测试样本打一个score,表示该样本预测为正类的概率,当score大于指定的threshold时,预测为正类,否则预测为负类。这样每个样本都会有一个真实的分类和预测的分类,统计计算得到TP,FP,TN,FN,由此就可以计算得到一个(FPR, TPR)点。
结合Wikipedia上上对ROC的定义和分类器预测过程,我们可以通过改变不同的threshold,就可以得到一系列的(FPR, TPR)点。在实际操作过程中,将测试样本按照预测分值从大到小排序,以每一个预测分值为threshold,大于等于threshold的都预测为正,否则预测为负,这样就能得到该score的(FPR, TPR)。
下面举个栗子,如下表所示,一共有五个测试样本,预测分值为0.9,0.8,0.7,0.5,0.3,对应的真实分类为1,1,-1,-1,1。当0.7为threshold时,对应的预测分类为1,1,1,-1,-1。
此时,TP=2,FP=1,TN=1,FN=1,TPR = TP / (TP+FN) = 2/3,FPR = FP / (FP+TN) = 1/2。

序号 分值 真实分类
5 0.9 1
4 0.8 1
3 0.7 -1
2 0.5 -1
1 0.3 1

AUC引用

虽然,用ROC curve来表示分类器的performance很直观好用。可是,人们总是希望能有一个数值来标志分类器的好坏。于是Area Under roc Curve(AUC)就出现了。顾名思义,AUC的值就是处于ROC曲线下方的那部分面积的大小。通常,AUC的值介于0.5到1.0之间,较大的AUC代表了较好的performance。下面主要总结下AUC的计算方法。

方法一

最直观的,根据AUC这个名称,我们知道,计算出ROC曲线下面的面积,就是AUC的值。计算ROC曲线上任意两个相邻点的连线与x轴构成的梯形面积,将这些梯形面积累加,就得到最终的AUC。计算公式如下:

AUC=i=0n1(xi+1xi)(yi+1+yi)2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值