分类器的准确率、召回率以及综合评价指标

最新推荐文章于 2024-07-26 08:33:18 发布

热爱学习的Valeria

最新推荐文章于 2024-07-26 08:33:18 发布

阅读量6.6k

点赞数 6

CC 4.0 BY-SA版权

文章标签： AUC ROC

本文链接：https://blog.youkuaiyun.com/Reberkah/article/details/93135510

本文介绍了分类器的评价指标，包括准确率、召回率、精确率和ROC AUC。强调了在样本不平衡时，准确率并非最佳评估标准，而精确率和召回率是关键。ROC曲线展示了模型性能，AUC作为衡量标准，有助于评估模型预测响应的覆盖程度和虚报程度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

需求：如何评价一个分类器的好坏
我们都知道机器学习要建模，但对于模型的好坏（即模型的泛化能力），并不知道是怎样的，可能模型很差，泛化能力弱，对测试集不能很好的预测和分类，所以，为了了解和对比不同模型的泛化能力，我们需要用某个指标来衡量，有了这个指标，我们就可以进一步调参逐步优化我们的模型。

混淆矩阵

假设分类目标只有两类，计为正例（positive）和负例（negative）则有：
1）True positives(TP): 正确划分的正例，实质为正例
2）False positives(FP): 错误划分的正例，实质为负例，然而被划分为正例
3）True negatives(TN):正确划分的负例，实质为正例
4）False negatives(FN):错误划分的负例，实质为正例

在这里插入图片描述上图是四个术语的混淆矩阵，P代表了实际为正例的样本数，P’代表被划分为正例（划分的准确不准确咱们不知道），这里，其实，只需要知道，true和false代表的是分类器的判断是否准确，yes和no代表的是标签为1和0的样本。整个混淆矩阵的对角线上，代表的都是分类器正确判断的总样本量。

准确率（Accuarcy）

分类指标中，最自然想到的就是准确率，即预测正确的结果占总样本的百分比。
然而，在样本不均衡的情况下，比如说在ECG信号的预测中，我们截取的心拍中正常样本的数量有70000多，而某些异常心拍数甚至只有几十个，那假设总共的样本量我取90000个，我把所有样本的预测都改为正常心拍，那么，我的准确率怎么说也有
86%左右，虽然不算高，只是举个例子，但实际上我们是无脑操作，这样的模型分类器也并不是我们想要的。
总结下来，由于样本不平衡，导致得到的高准确率结果是注有很大水