深度学习常用评价指标（Accuracy、Recall、Precision、HR、F1 score、MAP、MRR、NDCG）——推荐系统

原创

已于 2022-04-14 17:43:25 修改 · 1.5w 阅读

81 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #深度学习

于 2022-04-11 17:08:19 首次发布

这篇博客详细介绍了机器学习中的评估指标，如准确率、召回率、精确率、F1分数等，并通过混淆矩阵进行解释。文章强调了这些指标在不同场景下的重要性和局限性，同时提到了命中率、平均精度均值、平均倒数排名和归一化折损累计增益等其他关键度量标准，帮助读者全面理解模型性能的评价方法。

混淆矩阵

混淆矩阵
	P(Positives)	N(Negatives)
T(Ture)	TP：正样本，预测结果为正	TN：负样本，预测结果为正
F(False)	FP：正样本，预测结果为负	FN：负样本，预测结果为负

总结

Accuracy	$\frac{TP+TN}{TP+FP+TN+FN}$
Recall	$\frac{TP}{TP+FN}$
Precision

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

卷不动的程序猿

关注关注

10
点赞
踩
81

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

深入浅出之深度学习评价指标

浩瀚之水的专栏

10-30

2097

准确率的计算公式为：准确率 = 正确预测的样本数 / 总样本数，即（TP+TN）/（TP+TN+FP+FN）。

Marcus-Bao的个人主页

03-05

8666

3 条评论您还未登录，请先登录后发表或查看评论

3 条评论

Foddcus 李佳怿 2023.10.18
混淆矩阵写错了，差评

Cyber-Yuan 2022.11.20
混淆矩阵写的有问题吧

星空瞭望 2022.10.09
召回率和精确率的含义是不是写反了？

qq_45584615的博客

10-09

1591

S为样本的数目，可以理解为用户的需求项的数目。FP：False&Positive（positive表示正样本，false表示预测错误，即预测为正样本，实际也是负样本）FN：False&Negative（negative表示负样本，false表示预测错误，即预测为负样本，实际是正样本）预测结果列表中预测正确的样本占所有样本的比例，即用户想要的项目有没有推荐到，强调预测的“准确性”。预测为1的样本中实际为1的频率，也就是TP/（TP+FP）实际为1的样本中被预测为1的频率，TP/（TP+FN）

【深度学习】模型评价指标

最新发布

m0_61990598的博客

11-12

1189

本文系统介绍了机器学习分类和回归任务的评估指标。对于二分类任务，重点解析了混淆矩阵及相关指标（准确率、精确率、召回率、F1-Score），详细说明了ROC曲线和PR曲线的应用场景与解读方法。在多分类任务部分，对比了宏平均和微平均的计算方式及适用场景。回归任务部分则概述了基础误差、相对误差和拟合优度三类指标。全文通过医疗诊断等实例，深入浅出地阐述了不同指标的业务意义，为模型评估提供了实用指导。

深度学习之评价指标

柏拉图工作室-AI学科

12-28

1773

分类涉及到的评价指标特别多，不是这个率就是那个率，很容易混淆，这篇文章就梳理下分类模型的评价指标。为了解释混淆矩阵，先来看看下⾯这个⼆分类的例⼦。例：有20个病⼈来医院检查，是否患病的预测值和真实值如下表所⽰。病号预测值真实值病号预测值真实值 1 1 1 11 0 0 2 0 0 12 0 0 3 0 1 13 0 0 4 1 0 14 1 1 5 0 0 15 0 0 6 1 1 16 1 0 7 0 0 17 1 1 8 0 0 18 0 0

深度学习模型评估指标

fafagege11520的博客

02-04

3611

深度学习模型评估指标文章目录深度学习模型评估指标1. 基本指标2. 指标1. 准确率Accuracy2. 精确度Precision和召回率Recall3. F1 score4. 混淆矩阵5. ROC曲线与AUC指标6. TAR，FRR，FAR 1. 基本指标标签为正样本，分类为正样本的数目为True Positive，简称TP；标签为正样本，分类为负样本的数目为False Negative，简称FN；标签为负样本，分类为正样本的数目为False Positive，简称FP；标签为负样本，分类为负样

【Maching Learning】深度学习常用评价指标（分类+回归）

qq_43732429的博客

02-23

4482

深度学习有监督模型，回归和分类常用的评价指标

深度学习常用性能评价指标

盼小辉丶的博客

09-29

7946

深度学习性能指标是用于评价深度学习模型性能的依据，是设计模型的重要依据。

目标检测 — 评价指标

dbsggal90047018的博客

05-22

3845

　　评价指标：　　准确率（Accuracy），混淆矩阵（Confusion Matrix），精确率（Precision），召回率（Recall），平均正确率（AP），mean Average Precision(mAP)，交除并（IoU），ROC + AUC，非极大值抑制（NMS）。 1、准确率（Accuracy）　　分对的样本数除以所有的样本数，即：准确（分类）率 =...

JinyuZ1996的博客

03-08

2万+

深度学习在各场景下的评估指标

03-17

梳理了在百度EasyDL上如下几种深度学习场景下的评估指标以及展示方式：  图像：图像分类、物体检测、图像分割  文本：文本分类、短文本匹配、序列标注  视频：视频分类  声音：声音分类

推荐系统中常用评价指标及其实现

A-Egoist的博客

03-20

2543

深度学习评价指标

小鹏AI

02-03

811

分类算法的评价指标准确率（Precision）召回率（Recall） F分数（F-score）受试者工作特征（ROC） AUC（Area Under Curve）多分类：Micro-F1和Macro-F1 检测算法的评价指标准确率（Accuracy）混淆矩阵（Confusion Matrix）召回率（Recall）平均正确率（AP）交并比（IoU）精确率（Precision） mean Average Precision(mAP) 推荐系统评测指标准确率（Precis

【一文看懂】深度学习中常用的各项评价指标含义TP、FP、TN、FN、Accuracy、Recall、F1、IoU、mIoU

qq_27816785的博客

06-26

1万+

无论是对于图像领域的分类、分割问题，亦或点云领域的物体分类、场景分割，在评价一个模型的好坏时，经常涉及TP、FP、TN、FN、IoU、Accuracy。。。等指标进行衡量，那么这些指标是什么意思呢？我请到了鸭子先生、猴子客人和熊猫管家来给大家亲身示范一下。咦！发现10个可爱的小动物，可是我们不知道是什么动物，要不用深度学习分一下类吧？这个时候我们直接掏出训练好的，把这些小动物丢进去，一番等待之后，我们有了以下的预测结果：很明显，模型并没有非常完美的完成任务。但是如何评价它呢？对某一来讲：T = tru

深度学习常用参数&评估指标详细汇总

bkirito的博客

02-21

6840

对深度学习中常用的一些训练参数和评估指标和相应的原理进行简单梳理与汇总

深度学习原理3——深度学习评价指标

xiaotiig的博客

12-26

7390

衡量一个模型的好坏，首先需要确定指标体系，目前常用的指标有如下几个： TP FP TN FN 准确率精度召回率 AP MAP IOU MIOU RP曲线：PR = Precision vs Recall 信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate)，召回率也叫查全率，准确率也叫查准率，概念公式 ...

深度学习分类任务评价指标

ZONGXP的博客

06-25

1万+

参考：https://www.jianshu.com/p/b960305718f1 在做图像识别相关任务时，对于识别效果没有提出明确的评价指标或预期目标，调试时单纯依靠“感觉”调参，显然不是一种合理的方法，因此整理相关评价指标，作为参数调试的相关依据。根据深度学习的任务不同，评价标准也不同，分类任务和回归任务的评价指标如下分类：accuracy、误分类率、precision、recal...

扫盲记-第七篇--常见深度学习模型评估指标

weixin_30719711的博客

03-23

1243

深度学习模型评估指标一个深度学习模型在各类任务中的表现都需要定量的指标进行评估，才能够进行横向的对比比较，包含了分类、回归、质量评估、生成模型中常用的指标。 1 分类评测指标图像分类是计算机视觉中最基础的一个任务，也是几乎所有的基准模型进行比较的任务，从最开始比较简单的10分类的灰度图像手写数字识别mnist，到后来更大一点的10分类的cifar10和100分类的cifar100，到后来...

如何用R语言中BART函数计算Accuracy、Precision、Recall、F1-Score、AUC的评价指标

08-28

<think>我们正在使用R语言中的BART包（Bayesian Additive Regression Trees）进行建模。为了计算Accuracy、Precision、Recall、F1-Score和AUC等评价指标，我们需要先使用BART模型进行预测，然后根据预测结果计算这些指标。步骤： 1. 安装并加载必要的包：BART包用于建模，另外需要一些包来计算评价指标，如pROC（用于AUC）和caret（可用于计算其他指标，但注意caret也可以计算AUC，不过我们这里用pROC）。 2. 准备数据：将数据分为训练集和测试集。 3. 训练BART模型。 4. 在测试集上进行预测。注意，BART对于分类问题（二分类）可以预测概率。 5. 根据预测的概率，确定一个阈值（通常为0.5），将概率转换为类别标签。 6. 计算混淆矩阵，然后根据混淆矩阵计算Accuracy、Precision、Recall和F1-Score。 7. 使用预测的概率计算AUC。注意：BART包中的函数`wbart`用于回归，`pbart`用于分类（二分类，使用probit链接函数）。对于二分类问题，我们通常使用`pbart`。下面是一个示例代码，展示如何使用BART进行二分类并计算评价指标。假设我们有一个二分类问题，响应变量为y（0和1）。安装包（如果尚未安装）： ```r install.packages("BART") install.packages("pROC") install.packages("caret") ``` 加载包： ```r library(BART) library(pROC) library(caret) ``` 示例代码： ```r # 假设我们有一个数据框data，其中包含特征和响应变量（名为y） # 将数据分为训练集和测试集 set.seed(123) index <- sample(1:nrow(data), size = 0.7 * nrow(data)) train_data <- data[index, ] test_data <- data[-index, ] # 准备训练数据和测试数据（去掉响应变量） x_train <- train_data[, -which(names(train_data) == "y")] y_train <- train_data$y x_test <- test_data[, -which(names(test_data) == "y")] y_test <- test_data$y # 使用pbart训练模型（二分类） model <- pbart(x.train = x_train, y.train = y_train, x.test = x_test) # 预测概率：对于测试集，我们取模型预测的prob.test的第二列（因为pbart返回的是两个类别的概率，但二分类中我们通常取正类的概率） # 注意：pbart返回的prob.test是一个列表，其中每个元素是一个迭代中测试集的预测概率。我们通常取后验均值（即所有迭代的平均）作为预测概率。 prob_test <- apply(model$prob.test, 2, mean) # 对每一列（即每个测试样本）取所有迭代的平均 # 根据阈值0.5转换为类别 pred_class <- ifelse(prob_test > 0.5, 1, 0) # 计算混淆矩阵 conf_matrix <- table(Predicted = pred_class, Actual = y_test) # 计算评价指标 # Accuracy accuracy <- sum(diag(conf_matrix)) / sum(conf_matrix) # Precision, Recall, F1 # 注意：我们关注的是正类（1） # 使用conf_matrix的行列名来定位，确保位置正确 # 如果混淆矩阵没有1这个类别，可能需要调整 if ("1" %in% colnames(conf_matrix)) { TP <- conf_matrix["1", "1"] FP <- conf_matrix["1", "0"] FN <- conf_matrix["0", "1"] } else { # 如果列名是0和1，但顺序可能不同，我们可以用数字索引，但更安全的方式是用名称 # 假设混淆矩阵的行和列都是0和1，且顺序是0然后1（R默认按字母顺序，所以0在前，1在后） # 所以位置[2,2]对应1预测为1 TP <- conf_matrix[2,2] FP <- conf_matrix[2,1] FN <- conf_matrix[1,2] } precision <- TP / (TP + FP) recall <- TP / (TP + FN) f1_score <- 2 * (precision * recall) / (precision + recall) # 计算AUC roc_obj <- roc(y_test, prob_test) auc_value <- auc(roc_obj) # 打印结果 cat("Accuracy:", accuracy, "\n") cat("Precision:", precision, "\n") cat("Recall:", recall, "\n") cat("F1 Score:", f1_score, "\n") cat("AUC:", auc_value, "\n") ``` 注意： 1. 在计算混淆矩阵时，我们假设了阈值0.5，但实际应用中可以根据需要调整阈值。 2. 上述代码中，我们假设测试集的实际标签y_test是二分类的0和1。 3. 在提取TP、FP、FN时，我们考虑了混淆矩阵的列名，以避免顺序问题。但是，如果数据中只有0和1，并且没有缺失，那么混淆矩阵的行列名应该是0和1（按顺序）。不过，为了代码的健壮性，我们进行了条件判断。 4. 如果数据中正类标签不是1，或者负类标签不是0，需要相应调整。另外，对于多分类问题，BART包目前主要支持二分类。如果遇到多分类，可能需要使用其他方法（例如，将多分类转化为多个二分类，或者使用其他模型）。以上代码提供了一个基本框架，实际使用时需要根据具体数据进行调整。关于BART模型的参数设置（如迭代次数、树的数量等），可以在`pbart`函数中设置，例如： ```r model <- pbart(x.train = x_train, y.train = y_train, x.test = x_test, ntree=50, nskip=100, ndpost=200) ``` 其中，ntree是树的数量，nskip是burn-in的迭代次数，ndpost是后验抽样的次数。希望这个回答对你有帮助。</think>### R语言中使用BART函数计算评价指标的方法在R语言中，使用BART（Bayesian Additive Regression Trees）模型计算Accuracy、Precision、Recall、F1-Score和AUC等评价指标需要以下步骤： #### 核心步骤 1. **安装加载包** ```r install.packages(c("BART", "pROC", "caret")) # 评价指标计算包 library(BART) library(pROC) # 计算AUC library(caret) # 计算混淆矩阵指标 ``` 2. **训练BART模型** ```r # 假设数据：data(包含特征), label(二分类标签0/1) model <- pbart(x.train = data, # 特征矩阵 y.train = label, # 二分类标签 ntree = 50) # 树的数量 ``` 3. **生成预测概率** ```r pred_prob <- predict(model, newdata = test_data)$prob.test.mean # 预测概率向量 pred_class <- ifelse(pred_prob > 0.5, 1, 0) # 概率转类别 ``` 4. **计算评价指标** ```r # 混淆矩阵 conf_matrix <- confusionMatrix(as.factor(pred_class), as.factor(test_label)) # 提取指标 accuracy <- conf_matrix$overall["Accuracy"] precision <- conf_matrix$byClass["Precision"] recall <- conf_matrix$byClass["Recall"] f1 <- conf_matrix$byClass["F1"] # 计算AUC auc_value <- auc(roc(test_label, pred_prob)) ``` 5. **完整示例代码** ```r # 加载数据 data(iris) iris_binary <- iris[iris$Species != "setosa", ] iris_binary$Species <- ifelse(iris_binary$Species == "versicolor", 0, 1) # 拆分数据集 set.seed(123) train_idx <- sample(1:nrow(iris_binary), 100) train_data <- iris_binary[train_idx, -5] train_label <- iris_binary[train_idx, 5] test_data <- iris_binary[-train_idx, -5] test_label <- iris_binary[-train_idx, 5] # 训练模型 model <- pbart(x.train = as.matrix(train_data), y.train = train_label, ntree = 50) # 预测 pred_prob <- predict(model, test_data)$prob.test.mean pred_class <- ifelse(pred_prob > 0.5, 1, 0) # 计算指标 conf_matrix <- confusionMatrix(as.factor(pred_class), as.factor(test_label)) auc_value <- auc(roc(test_label, pred_prob)) # 输出结果 cat("Accuracy:", round(conf_matrix$overall[1], 4), "\nPrecision:", round(conf_matrix$byClass[5], 4), "\nRecall:", round(conf_matrix$byClass[6], 4), "\nF1:", round(conf_matrix$byClass[7], 4), "\nAUC:", round(auc_value, 4)) ``` #### 关键说明： 1. **数据格式要求**： - 特征需为数值矩阵：`as.matrix(data)` - 标签需为二分类数值向量（0/1） 2. **BART函数选择**： - `pbart()`：用于概率分类（返回概率值） - `wbart()`：用于回归任务（需调整指标计算方式） 3. **阈值调整**： - 默认使用0.5作为分类阈值，可通过调整阈值优化特定指标： ```r # 寻找最优F1阈值 coords(roc(test_label, pred_prob), "best", ret = "threshold") ``` 4. **多分类扩展**： BART原生支持二分类，多分类问题需： - 使用`One-vs-Rest`策略 - 计算`macro-F1`等加权指标 ```r # 多分类F1计算 f1_macro <- mean(conf_matrix$byClass[, "F1"]) ``` #### 注意事项： - 概率输出在`$prob.test.mean`中 - 确保测试集与训练集特征维度一致 - 大规模数据需增加`ntree`和迭代次数 - AUC计算依赖概率输出而非分类结果 > 评价指标关系说明： > Precision和Recall通常存在权衡关系，提高查准率(Precision)可能降低查全率(Recall)，而F1-score是两者的调和平均。AUC则综合考量了不同阈值下的分类性能，能更好评估模型整体区分能力[^2][^4]。