机器学习中——常见二元分类性能指标（准确率、精确率、召回率、F1值、ROC AUC得分）

最新推荐文章于 2025-05-24 16:38:08 发布

原创

最新推荐文章于 2025-05-24 16:38:08 发布 · 1.9k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文通过垃圾短信分类器的例子，介绍了二元分类的性能指标：准确率、精准率、召回率、F1值和ROC AUC。准确率衡量预测正确比例，精准率表示阳性预测正确比例，召回率表示真实阳性实例被识别的比例，F1值是精准率和召回率的调和平均数，ROC AUC则展示了分类器对所有阈值的性能，且对类别不平衡不敏感。

接下来以垃圾信息分类器作为例子说明：

文章目录

一、垃圾短信分类器

对于垃圾短信分类器，当分类器将一条短信正确地预测为垃圾短信时为真阳性；当分类器将一条短信正确地预测为非垃圾短信时为真阴性；当非垃圾信息被预测为垃圾信息时为假阳性；当垃圾信息被预测为非垃圾信息时为假阴性；

	垃圾信息	非垃圾信息
预测为垃圾信息	真阳性(TP)	假阳性(FP)
预测为非垃圾信息	假阴性(FN)	真阴性(TN)

二、二元分类性能指标

1. 准确率

准确率用来衡量分类器预测正确的比例。但它不能区分假阳性错误和假阴性错误。

2. 精准率和召回率

精准率表示阳性预测结果为正确的比例，在垃圾短信分类器中，精准率表示被分类为垃圾短信的信息实际上为垃圾短信的比例。
$\frac{\text{真阳性+真阴性}}{\text{真阳性+真阴性+假阳性+假阴性}}$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

long Rookie

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【人工智能机器学习基础篇】——深入详解监督学习之模型评估：掌握评估指标（准确率、精确率、召回率、F1分数等）和交叉验证技术

编程技术探索者，分享C/C++、C#、Java、数据库等开发经验，聚焦实战技巧与AI兴趣，助力编程爱好者成长。

12-30

1909

【人工智能机器学习基础篇】——深入详解监督学习之模型评估：掌握评估指标（准确率、精确率、召回率、F1分数等）和交叉验证技术

LSTM循环神经网络/长短时记忆

Rogel_Liu的博客

09-06

2633

Long short-term memory LSTM中的重复模块四个交互的层 1.绿色的单元可以理解为tensorflow里的基本单元。每个cell底下Xt-1，Xt，Xt+1表示这是一个序列的数据，在每个时间点上都会有一个输入，如果这个问题对应到文本当中可能的xt对应的就是word，如果是对一个用户的行为序列去建模，那么这个Xt对应的就是每个用户的一个行为。RNN算法结构其实就是是一套时序神经

参与评论您还未登录，请先登录后发表或查看评论

什么是精确率，召回率，F1分数

烟雨星洲

11-01

2732

精确率、召回率、F1 分数被定义的文献原文在机器学习和统计分类问题中，精确率（Precision）、召回率（Recall）和 F1 分数（F1 Score）是衡量模型性能的三个核心指标。这些指标帮助我们评估模型在预测结果时的准确性和可靠性。本文将详细解释这三个指标的定义、计算方法以及它们在实际应用中的意义。

frogbar的博客

10-05

1万+

基础定义通常在机器学习的二分类领域中，对模型的结果评估是必不可少的，本文主要总结了各个评估指标，对每个指标的定义，作用进行阐述。废话到此，直接上干货。 TP：True Positive FP：False Positive TN：True Negtive FN：False Negtive 以上四个定义是基础，Positive表示对样本作出的是正的判断，T表示判断正确，F表示判断错误...

二元分类器模型评估指标

2020重新做人的博客

08-07

1594

文章目录准确率精准率与召回率F1值ROC AUC得分sklearn操作各个指标 准确率 准确率顾名思义就是分类器正确分类的样本数占总体数的比例，虽然准确率可以衡量分类器的整体正确性，但是当类别在总样本中呈偏态分布是，准确率就不是一个很有效的衡量指标，例如信用卡欺诈检测，大多数是合法交易，所以分类器的分类准确率会达到99%以上，但是这不能说明模型就一定是好的，所以分类器会经常使用精准率和召回率来进行...

ROC原理介绍及利用python实现二分类和多分类的ROC曲线

热门推荐

山不过来，我就过去

08-19

11万+

对于分类器，或者说分类算法，评价指标主要有precision，recall，F-score1，以及即将要讨论的ROC和AUC。本文通过对这些指标的原理做一个简单的介绍，然后用python分别实现二分类和多分类的ROC曲线。 1 基本概念一个分类模型(分类器)是一个将某个实例映射到一个特定类的过程.分类器的结果可以是给出该实例所属的类别，也可以给定该实例属于某个类别的概率。首先来...

二元分类器性能计算公式(全网最全)

Mr.Cheng

09-15

2091

二元分类器的性能计算公式混淆矩阵1.准确率$Accuracy$2.精确率$Precision$3.灵敏度$Sensitivity$=召回率$Recall$=真阳率$Recall$4.特异度$Specificity$5.假阳率$FPR$6.马修斯相关系数$MCC$7.F1分数(H-mean值)8.ROC曲线混淆矩阵混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示...

二分类问题的micro-F1 score（f值）和Accuracy（准确度）

weixin_44839047的博客

01-11

4658

直接上结论：二分类的micro-F1 score和Accuracy的值相等关于 F score 和micro-F score以及macro-F score可以参考：参考文对于二分类问题（A类和B类），某分类器判断结果为判断为A类判断为B类实际为A类 a b 实际为B类 c d 为了计算 micro-F1 score，计算整体的TP，FP，FN。对于A类来说 TPA = a ，对于B类来说 TPB = d ，同理可得 FPA= c ，FPB = b，以及FNA= b

【机器学习—评估指标】混淆矩阵、准确率、精确率、召回率、F1分数、ROC曲线和AUC

weixin_51375278的博客

12-30

6290

机器学习评价指标是衡量模型性能的关键工具。本文介绍了常见指标及其计算方法：1.混淆矩阵展示分类预测结果分布，包含TP、TN、FP、FN四个基础指标；2.准确率反映整体预测正确率；3.精确率关注预测正例的准确性；4.召回率衡量正例检出能力；5.F1分数综合平衡精确率和召回率；6.ROC曲线通过TPR与FPR的权衡关系评估模型性能，AUC值量化区分能力。文章详细说明了各指标的定义、计算公式、适用场景及局限性，并通过Python代码示例演示了具体实现方法，特别对ROC曲线和AUC的计算原理进行了深入解析。

机器学习指标：准确率、精准率、召回率、F1、ROC曲线、AUC曲线

大鹏的专栏

10-19

1647

还是拿之前的例子，总样本中，90% 是正样本，10% 是负样本。这里，TPR 只关注 90% 正样本中有多少是被真正覆盖的，而与那 10% 毫无关系，同理，FPR 只关注 10% 负样本中有多少是被错误覆盖的，也与那 90% 毫无关系，所以可以看出：如果我们从实际表现的各个结果角度出发，就可以避免样本不平衡的问题了，这也是为什么选用 TPR 和 FPR 作为 ROC/AUC 的指标的原因。举个简单的例子，比如在一个总样本中，正样本占 90%，负样本占 10%，样本是严重不平衡的。这样不利于模型的学习。

机器学习模型度量指标（混淆矩阵、准确率、精确率、召回率、F1分数、ROC曲线、AUC、平均精度均值）

2302_78558540的博客

05-24

1310

用于展示多分类模型预测结果与真实标签的对应关系矩阵，直观反映各类别的预测正确 / 错误情况。

机器学习笔记--模型评估之二：准确率、精确率、召回率、F1Score与ROC

wwxsoft的专栏

08-24

3279

准确率（precision）P：其中，TP(真正，True Positive)表示真正结果为正例，预测结果也是正例；FP(假正，False Positive)表示真实结果为负例，预测结果却是正例；TN（真负，True Negative）表示真实结果为正例，预测结果却是负例；FN（假负，False Negative）表示真实结果为负例，预测结果也是负例。显然，TP+FP+FN+TN=样本总数 准确率（Precision）P： P=TP/(TP+FP) TP(true positive) FP(f

机器学习分类模型中的评价指标介绍：准确率、精确率、召回率、ROC曲线

学无止境，居安思危

02-05

9025

文章来源：https://blog.youkuaiyun.com/wf592523813/article/details/95202448 1 二分类评价指标 准确率，精确率，召回率，F1-Score， AUC, ROC, P-R曲线 1.1 准确率（Accuracy）评价分类问题的性能指标一般是分类准确率，即对于给定的数据，分类正确的样本数占总样本数的比例。注意：准确率这一指标在Unbalanced数据集上的表现很差，因为如果我们的正负样本数目差别很大，比如正样本100个，负样本9900个，那么直接把所有

长短时记忆网络LSTM

weixin_44823313的博客

01-16

264

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist=input_data.read_data_sets('MNIST_data',one_hot=True) tf.reset_default_graph() # 输入图片是28*28 n_inputs = 28 # 输入一行，一行有28个数据 max_time = 28 # 一共有28行 lstm_size = 100 # 隐层单元

准确率。精准率。召回率。F1

m0_61633560的博客

10-03

292

监控视频异常检测的评估指标i 之一的 ROC曲线及其前置只是混淆矩阵

sklearn中精确率、召回率及F1值得micro，macro及weighted算法

time

10-30

1万+

为什么要用精确率和召回率 有这样一个训练集，1000个人参加了结直肠癌CRC的检测，实际有0.5%的人得了CRC（即5个人）。精确率和召回率的值在类偏斜的样本中能得到很好体现。 ...

准确率、精确率、召回率、F1-measure

WHS-_-2022的博客

01-23

2804

Accurency、Precision、Call

准确率、精确率、召回率、f1

yibo492387的专栏

11-16

1617

特征计算好了之后，对于分类应用，可以去试多个分类器，这里全部用sklearn现成的分类器，这样对分类器效果的评估就提上日程，而且应该是离线效果 准确率、精确率、召回率、f1 这里我发现分类器自带的score（）方法的分数并不是测试集上的准确率，而是对模型的一个评估值 https://www.cnblogs.com/sddai/p/5696870.html 机器学

目标检测-----准确率、精准率、召回率、F1值

qq_28057379的博客

06-29

2475

Precise 表示正确预测正样本占实际预测为正样本的比例 Recall 表示正确预测正样本占正样本的比例 Accuracy 表示预测符合标签的样本与总样本的比例 F1 measure

掌握准确率、精确率、召回率、F1 值、ROC 曲线等评估指标，学会使用交叉验证等方法选择合适的机器学习模型。

最新发布

08-29

学习机器学习评估指标（准确率、精确率、召回率、F1值、ROC曲线）及交叉验证等模型选择方法，可以从以下几个方面入手： ### 理论学习 - **了解评估指标概念**：准确率是指分类正确的样本占总样本的比例，直观易理解，但在类别不平衡时失效，适用于平衡数据集；精确率是指预测为正例的样本中真正为正例的比例；召回率是指真正为正例的样本中被预测为正例的比例；F1值是精确率和召回率的调和平均数，能平衡精确度与召回率，适用于不均衡数据、二分类任务；ROC曲线是以假正率为横轴、真正率为纵轴绘制的曲线，AUC值是ROC曲线下的面积，AUC不受阈值影响，但仅适用于二分类，适用于类别不平衡的二分类任务 [^1][^3]。 - **掌握交叉验证原理**：交叉验证是一种将数据集划分为多个子集，轮流将其中一个子集作为验证集，其余子集作为训练集进行模型训练和评估的方法，能够更全面地评估模型的泛化能力。 ### 实践操作 - **使用Python库进行计算**：可以使用`sklearn`库中的相关函数来计算这些评估指标。以下是一个示例代码： ```python from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression from sklearn.datasets import make_classification import numpy as np # 生成示例数据 X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=0, random_state=42) # 创建模型 model = LogisticRegression() # 交叉验证 cv_scores = cross_val_score(model, X, y, cv=5) print("交叉验证平均得分:", np.mean(cv_scores)) # 划分训练集和测试集 train_size = int(len(X) * 0.8) X_train, X_test = X[:train_size], X[train_size:] y_train, y_test = y[:train_size], y[train_size:] # 训练模型 model.fit(X_train, y_train) # 预测 y_pred = model.predict(X_test) y_proba = model.predict_proba(X_test)[:, 1] # 计算评估指标 accuracy = accuracy_score(y_test, y_pred) precision = precision_score(y_test, y_pred) recall = recall_score(y_test, y_pred) f1 = f1_score(y_test, y_pred) auc = roc_auc_score(y_test, y_proba) print("准确率:", accuracy) print("精确率:", precision) print("召回率:", recall) print("F1值:", f1) print("AUC值:", auc) ``` - **分析结果**：通过计算得到的评估指标和交叉验证结果，分析模型的性能。如果准确率高，说明模型整体分类效果较好；如果精确率和召回率差异较大，可能需要调整模型或阈值；F1值越高，说明精确率和召回率越平衡；AUC值越接近1，说明模型的分类能力越强。 ### 案例学习 - **参考实际案例**：可以参考一些公开的机器学习竞赛或实际项目案例，了解在不同场景下如何选择合适的评估指标和模型选择方法。 - **自己动手实践**：选择一些公开数据集，如鸢尾花数据集、手写数字数据集等，自己构建模型并使用上述评估指标和交叉验证方法进行评估和选择。 ### 持续学习 - **关注最新研究和技术**：机器学习领域发展迅速，不断有新的评估指标和模型选择方法出现，需要持续关注相关的研究和技术，不断学习和更新知识。 - **参与讨论和交流**：可以加入机器学习相关的社区或论坛，与其他爱好者和专业人士进行讨论和交流，分享经验和心得。