混淆矩阵(Confusion Matrix)是机器学习中用于评估分类模型性能的核心工具,通过展示模型预测结果与真实标签的对应关系,帮助分析模型的表现。它以表格形式呈现,适用于二分类、多分类甚至多标签问题。以下是对混淆矩阵的详细介绍,包括其定义、结构、作用、计算指标、应用场景以及注意事项。
1. 混淆矩阵的定义与结构
混淆矩阵是一个方形矩阵,用于总结分类模型的预测结果。矩阵的行表示样本的真实类别,列表示模型的预测类别。每个单元格表示某类真实标签被预测为某类的情况。
二分类混淆矩阵
对于二分类问题(例如,区分“正类”和“负类”),混淆矩阵通常为 2×2 的表格:
真实\预测 |
正类 (Predicted Positive) |
负类 (Predicted Negative) |
---|---|---|
正类 (Actual Positive) |
TP (True Positive) |
FN (False Negative) |
负类 (Actual Negative) |
FP (False Positive) |
TN (True Negative) |
-
TP(真阳性):真实为正类,预测也为正类(正确预测)。
-
TN(真阴性):真实为负类,预测也为负类(正确预测)。
-
FP(假阳性):真实为负类,预测为正类(错误预测,误报)。
-
FN(假阴性):真实为正类,预测为负类(错误预测,漏报)。
多分类混淆矩阵
对于多