准确率、召回率、F-1值、ROC

1 混淆矩阵

如果我们用的是一个二分类模型,那么把预测情况和实际情况的所有结果进行两两组合,就会出现如下的混淆矩阵。
混淆矩阵
其中的核心概念如下,1代表正类、0代表负类:

  • TP:若一个实例是正类,但是被预测成为正类,即为真正类(True Postive)
  • TN:若一个实例是负类,但是被预测成为负类,即为真负类(True Negative)
  • FP:若一个实例是负类,但是被预测成为正类,即为假正类(False Postive)
  • FN:若一个实例是正类,但是被预测成为负类,即为假负类(False Negative)

2 准确率

预测正确的结果占总样本的百分比,其公式如下:(TP+TN)/(TP+TN+FP+FN)。
在这里插入图片描述

虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,并不能作为很好的指标来衡量结果。举个简单的例子,比如在一个总样本中,正样本占90%,负样本占10%,样本是严重不平衡的。对于这种情况,我们只需要将全部样本预测为正样本即可得到90%的高准确率&#

### 准确率、精确率、召回率和F1的定义 #### 1. 准确率 (Accuracy) 准确率是指模型预测正确的样本数占总样本数的比例。其计算公式如下: \[ \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{FP} + \text{FN} + \text{TN}} \] 其中,TP表示真阳性(True Positive),TN表示真阴性(True Negative)。这表明准确率衡量的是整体分类效果的好坏[^1]。 #### 2. 精确率 (Precision) 精确率指的是在所有被模型预测为正类的样本中,实际为正类的样本比例。其计算公式如下: \[ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} \] 这意味着精确率关注于减少误报的情况,即降低假阳性的数量。 #### 3. 召回率 (Recall) 召回率也称为灵敏度或真正类率(True Positive Rate, TPR),它衡量的是在所有实际为正类的样本中,被正确预测为正类的比例。其计算公式如下: \[ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} \] 召回率主要关注漏报的情况,即尽可能多地找出所有的正类样本。 #### 4. F1 (F1-Score) F1是精确率和召回率的调和平均数,用于平衡两者之间的关系。其计算公式如下: \[ \text{F1-Score} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} \] 当精确率和召回率都很重要时,通常会使用F1作为评估标准。 --- ### ROC 曲线与 AUC 的概念 除了上述指标外,ROC曲线也是常用的性能评估工具之一。ROC曲线通过绘制不同阈下的真正类率(TPR)和伪正类率(FPR)来展示模型的表现。理想情况下,ROC曲线应该靠近左上角,即TPR接近1而FPR接近0[^3]。 以下是ROC曲线的一个简单示意图: ```plaintext | | * | * * | * * | * * | * * | * * | * * |*_______________________________> False Positive Rate (FPR) ``` 横轴代表伪正类率(FPR),纵轴代表真正类率(TPR)。AUC(Area Under Curve)则指ROC曲线下方的面积,范围从0到1,数越大表示模型区分能力越强。 --- ### 关系总结 - **准确率**适用于数据分布较为均衡的情况下; - **精确率**更注重减少错误标记为正类的情况; - **召回率**强调找到更多的正类实例; - **F1**则是两者的权衡,尤其适合处理类别不平衡的数据集。 这些指标各有侧重,在具体应用中需根据业务需求选择合适的评价方法。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值