准确率、精准率、召回率和F1值详解

博客介绍了Precise、Recall、F1 measure和Accuracy四个指标。Precise和Recall用于评价信息检索和统计学分类结果质量,F1 measure综合二者反映整体指标,它们都通过混淆矩阵计算。Accuracy表示预测符合标签的样本与总样本的比例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

专业术语的中英文对照表
 英文名
准确率Accuracy
精准率Precise
召回率Recall
F1值F1 measure

Precise和Recall是广泛应用在信息检索和统计学分类领域的两个度量值,用来评价结果的质量;F1 measure是综合Precise和Recall两个指标的评估指标,用于综合反映整体的指标。Precise、Recall和F1 measure都是通过混淆矩阵计算出来的,下表是对混淆矩阵的介绍:

混淆矩阵
 预测的类别 
实际的类别 PositiveNegative合计
PositiveTPFN正样本
NegativeFPTN负样本
 合计样本被预测为Positive样本被预测为NegativePositive+Negative

 其中:

TP表示正确地把正样本预测为正;

FN表示错误地把正样本预测为负;

FP表示错误地把负样本预测为正;

TN表示正确地把负样本预测为负;

目录

Precise

Recall

F1 measure

Accuracy


Precise

表示正确预测正样本占实际预测为正样本的比例

Precise = \frac{TP}{TP+FP}

Recall

表示正确预测正样本占正样本的比例

Recall = \frac{TP}{TP+FN}

F1 measure

F1 = \frac{2}{\frac{1}{Precise}+\frac{1}{Recall}} = 2 \cdot \frac{Precise \cdot Recall}{Precise + Recall}

Accuracy

表示预测符合标签的样本与总样本的比例

Accuracy = \frac{TP + TN}{TP + TN + FP + FN}

 

### 机器学习入门概述 机器学习是一门多领域交叉学科,涉及概论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。通过构建模型来解析数据,从中自动地学习规律并利用这些规律对未知数据进行预测。 ### 分类算法介绍 #### 决策树 决策树是一种基本的分类与回归方法。该算法的主要优点在于易于理解解释,可以可视化展示决策路径。其工作原理是从根节点开始,测试样本的某个属性,根据测试结果将样本分配到不同的子节点,直到到达叶节点为止,在此过程中形成一系列判断条件[^1]。 ```python from sklearn.tree import DecisionTreeClassifier clf = DecisionTreeClassifier() clf.fit(X_train, y_train) predictions = clf.predict(X_test) ``` #### 随机森林 随机森林属于集成学习的一种实现方式,由多个决策树组成。每棵决策树都独立生长于不同训练集上,并且在分裂结点时只考虑部分特征。最终输出结果采用多数投票法决定类别标签。这种机制不仅提升了泛化能力还降低了过拟合风险。随机森林几乎不需要输入预处理即可直接应用于多种类型的数据集,同时具备快速训练速度良好的特征选择特性。 ```python from sklearn.ensemble import RandomForestClassifier rf_clf = RandomForestClassifier(n_estimators=100) rf_clf.fit(X_train, y_train) rf_predictions = rf_clf.predict(X_test) ``` #### K近邻 (KNN) K近邻(K-Nearest Neighbors) 是一种简单直观的监督式学习算法。对于给定的新实例,它会在已知样本集中找到距离最近的k个邻居,并依据这k个邻居所属类别来进行判定。尽管容易理解实施,但在高维空间下效较低,因此实际应用前通常需要降维处理。 ```python from sklearn.neighbors import KNeighborsClassifier knn_clf = KNeighborsClassifier(n_neighbors=5) knn_clf.fit(X_train, y_train) knn_predictions = knn_clf.predict(X_test) ``` #### 支持向量机(SVM) 支持向量机旨在寻找能够最大化两类之间间隔的最大边界超平面作为划分标准。当面对线性不可分情况时,则借助核函数映射至更高维度的空间内寻求解决方案。SVM擅长解决小规模样本下的模式识别问题,具有较强的鲁棒性较高的精度。 ```python from sklearn.svm import SVC svm_clf = SVC(kernel='linear') svm_clf.fit(X_train, y_train) svm_predictions = svm_clf.predict(X_test) ``` ### 性能评估指标详解 #### 准确率(Accuracy) 准确率为正确预测的比例,即真正例(TP)+真反例(TN)/(TP+TN+FP+FN),适用于正负样本数量相对均衡的情况。 #### 召回率(Recall) 召回率反映了所有真实阳性案例中有多少被成功检测出来,定义为 TP/(TP+FN)[^2]。 #### F1分数(F1-Score) F1-score是基于召回率(Recall)与精确(Precision)的调平均数,用于平衡两者之间的关系,尤其适合不平衡数据集中的表现衡量[^2]。 \[ \text{F1}=\frac {2\times (\text{precision}\times\text{recall})}{(\text{precision}+\text{recall})} \] #### AUC AUC指ROC曲线下面积,表示的是在整个阈范围内区分正负的能力大小。理想情况下AUC接近1表明模型拥有较好的判别力;而小于等于0.5则意味着几乎没有区别意义。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

mannuandeyangguang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值