分类模型之混淆矩阵(Confusion Matrix)

最新推荐文章于 2025-01-15 00:21:23 发布

原创最新推荐文章于 2025-01-15 00:21:23 发布 · 1.8k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#分类 #矩阵

混淆矩阵是衡量分类型模型准确度的基本方法，常用于分类器如分类树、逻辑回归等的评估。其包含TruePositive、FalseNegative、FalsePositive和TrueNegative四个指标，以及衍生出的准确率、精确率、灵敏度和特异度等重要参数。

混淆矩阵简介

混淆矩阵是ROC曲线绘制的基础，同时它也是衡量分类型模型准确度中最基本，最直观，计算最简单的方法。

可以简单理解为：将一个分类模型的预测结果与正确结果做对比，将预测正确的统计量和预测错误的统计量分别写入一张矩阵图中，得到的这张图就是混淆矩阵了。

混淆矩阵的使用情况：因为混淆矩阵是用来评判模型结果的，属于模型评估的一部分。因此，混淆矩阵多用于判断分类器（Classifier）的优劣，适用于分类型的数据模型有：分类树（Classification Tree）、逻辑回归（Logistic Regression）、线性判别分析（Linear Discriminant Analysis）等。

混淆矩阵及其参数

以分类中最简单的二分类为例，我们的模型训练完之后会进行“0”和“1”的判断，专业词语是positive和negative的判断。

我们通过样本可以直接知道真实情况下，哪些数据结果是positive，哪些结果是negative。同时，我们也可以通过神经网络或者其它模型跑出结果，进而可以知道模型认为这些数据哪些是positive，哪些是negative。

这样就能得到这样四个基础指标：

1、真实值是positive，模型认为是positive的数量（True Positive=TP）
2、真实值是positive，模型认为是negative的数量（False Negative=FN）：这就是统计学上的第二类错误（Type II Error）
3、真实值是negative，模型认为是positive的数量（False Positive=FP）：这就是统计学上的第一类错误（Type I Error）
4、真实值是negative，模型认为是negative的数量（True Negative=TN）

将这四个指标一起呈现在表格中，就能得到如下这样一个矩阵，我们称它为混淆矩阵（Confusion Matrix）：

在这里插入图片描述