分类指标:ROC AUC PR F1

最新推荐文章于 2024-06-12 16:13:12 发布

Leooon726

最新推荐文章于 2024-06-12 16:13:12 发布

阅读量736

点赞数

CC 4.0 BY-SA版权

分类专栏： DL

本文链接：https://blog.youkuaiyun.com/weixin_38328084/article/details/89849872

DL 专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了ROC曲线的计算公式及其意义，强调了ROC曲线中真正类率(TPR)与负正类率(FPR)的概念。同时讨论了AUC，即ROC曲线下的面积，以及如何选择最优阈值。此外，还阐述了precision和recall的计算方法，指出理想的precision和recall应同时接近1。最后，引入了F1分数作为精确率和召回率的综合评价指标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ROC

计算公式

ROC的全称为:接收者操作特征(Receiver Operating Characteristic)
横轴：负正类率(False Postive Rate FPR)
纵轴：真正类率(True Postive Rate TPR)
对于FPR和TPR,他们的计算公式为:
$TPR=\frac{TP}{TP+FN}$
$FPR=\frac{FP}{FP+TN}$
其中
True Positive(真正, TP)：正确地预测成正类的个数.
True Negative(真负 , TN)：正确地预测成负类的个数.
False Positive(假正, FP)：错误地预测成正类的个数,也就是实际样本真值是负类 → 误报 (Type I error).
False Negative(假负 , FN)：错误地预测成负类的个数,也就是实际样本真值是正类 →漏报 (Type II error).
所以TP+FN是样本中真值为正类的数量,TPR是正样本预测对的比例,我们希望它越大越好
FP+TN是样本中真值为负类的数量,FPR是负样本预测错的比例,我们希望它越小越好

曲线绘制

当我们使用逻辑回归进行分类时,会得到每个样本分到正类的概率,当我们取不同的阈值的时候,样本的分类情况就会不一样,从而得到一系列随阈值变化的ROC值,这样就绘制出了一条曲线.
在这里插入图片描述
我们希望选取最靠左上角的点对应的阈值.

AUC

AUC全称是Area under Curve,ROC曲线下的面积

参考文献:https://blog.youkuaiyun.com/u013385925/article/details/80385873

precision recall

由上一节已经知道了TP, TN, FP和FN
查准率precision = tp/(tp+fp)
分母TP+FP是预测出正类的个数,包括了预测正确的和预测错误的
查全率recall = tp/(tp+fn)
分母TP+FN是所有真实正类的数量
其实容易发现recall = tpr
根据不同的阈值也可以得到不同的precision和recall,进而绘制像以recall为横坐标,precision为纵坐标的曲线
和ROC不同,我们希望两个指标都越接近1越好,因此曲线越往右上角凸出越好
在这里插入图片描述