💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在优快云上与你们相遇~💖
本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】
Sklearn 机器学习中的混淆矩阵与数值指标详解
在机器学习的分类任务中,仅仅依赖准确率(Accuracy)往往无法全面评估模型性能。特别是在类别不平衡的数据集中,一个高准确率的模型可能只是“看起来有效”。这时,我们需要更细粒度的评估方式,比如混淆矩阵(Confusion Matrix)及其衍生的精确率(Precision)、**召回率(Recall)和F1 值(F1 Score)**等指标。
本篇将带你深入理解 Sklearn 中的混淆矩阵及其常用性能指标,配合清晰代码和图示,帮你建立全面分类模型评估的思维。
📘 一、什么是混淆矩阵(Confusion Matrix)
混淆矩阵是用于可视化分类模型性能的矩阵工具,通过对比模型预测值和真实标签之间的关系,展示分类结果的具体情况。
二分类混淆矩阵结构:
实际 \ 预测 | 预测为正类(Positive) | 预测为负类(Negative) |
---|---|---|
实际为正类 | TP(True Positive) | FN(False Negative) |
实际为负类 | FP(False Positive) | TN(True Negative) |
术语说明(含通俗解释):
- TP(真正):模型正确预测为正类的数量。
- TN(真负):模型正确预测为负类的数量。
- FP(假正):模型将负类误判为正类,例如将健康人误诊为病人。
- FN(假负):模型将正类误判为负类,例如将病人漏诊为健康人。
🧮 二、Sklearn 中混淆矩阵的使用方法
Sklearn 提供了 confusion_matrix
函数,用于快速生成混淆矩阵。
示例代码:
from sklearn.metrics import confusion_matrix
y_true = [1, 0, 1, 1, 0, 1, 0