用简单实例理解ROC曲线和PR曲线

用实例理解ROC曲线和PR曲线

在理解PR曲线和ROC曲线前,需要先了解四个值的概念:

 

TP  (true positive):     正例正确地识别为正例

TN  (true negative):    负例正确地识别为负例

FP  (false positive):     负例错误地识别为正例

FN  (false negative):    正例错误地识别为负例

举个例子:一个样本中有100个样本,其中正例为猫,负例为其他动物,猫有70只,其他动物有30只,一共有50只猫被正确检测出来,一共有25只其他动物被正确检测出来,那么依此题意:

TP 50
TN 25
FP 5
FN 20

在理解这四个值以后,在继续理解P、R、FPR、FPR的概念

P(precision):        \frac{TP}{(TP+FP)}

R(recall):        \frac{TP}{TP+FN}

TPR  (true positive rate):    \frac{TP}{P}   =    \frac{TP}{TP+FN}

FPR  (false positive rate):    

### ROC曲线PR曲线的概念 #### ROC曲线概念 ROC曲线是由一系列阈值下(伪阳性率,真阳性率)构成的一系列坐标点连接而成的图形[^3]。该曲线位于二维坐标系中,其中横轴代表假正类率(FPR),即 \( FPR = 1 - TNR \) 或者说 \( 1 - Specificity \);而纵轴则表示真正类率(TPR),也被称为敏感度(Sensitivity)或者召回率(Recall)。 #### PR曲线概念 PR曲线同样基于不同的决策阈值绘制,在此情况下关注的是精确率(Precision)召回率(Recall)之间的关系。对于每一个可能的分类置信度阈值,可以计算出一组对应的PrecisionRecall值并以此来构建这条曲线[^2]。 ### 曲线间的区别 主要体现在以下几个方面: - **衡量标准的不同** - 对于ROC而言,其考量的是FPR与TPR的变化趋势; - 而PR更侧重于Precision相对于Recall的表现情况。 - **适用范围上的差异** - 当数据集类别分布较为均衡时,两者都能很好地反映模型性能; - 若遇到极端不平衡的数据集,则PR往往能提供更加直观有效的评价视角,因为此时高比例的负样本可能导致极低的FPR即使在大量误报的情况下也能保持较低水平,从而使得ROC曲线下面积(AUC)显得过高估计了模型的真实效能。 - **视觉表现形式** - ROC通常会有一个固定的起点(0,0)终点(1,1),并且理想状态下应该尽可能向左上方弯曲接近完美分类器的位置; - 反之,PR曲线不会固定经过特定位置,并且当存在较多噪声或难以区分的例子时可能会呈现出复杂的形态变化[^1]。 ### 应用场景的选择依据 选择使用哪种类型的图表取决于具体的应用背景个人偏好: - 如果希望获得一个不受类别先验概率影响的整体性能概览,那么可以选择查看AUC-ROC作为参考指标之一; - 在面对高度偏斜的数据集或是特别关心减少错误肯定案例数量的情形下,PR图能够更好地突出那些能够在维持较高查准率的同时达到良好覆盖能力的算法版本。
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值