【ML评估系列】混淆矩阵通透解释 ROC绘制示例详解–点击此处免费看
文章目录
混淆矩阵
混淆矩阵(Confusion Matrix)是用于评估分类模型性能的一种表格形式。它基于模型的预测结果和真实标签,将样本分为四个不同的类别:真正例(True Positive, TP)、真负例(True Negative, TN)、假正例(False Positive, FP)和假负例(False Negative, FN)。以下是混淆矩阵的示意:
| 预测为正例 § | 预测为负例 (N) | |
|---|---|---|
| 实际为正例 § | True Positive (TP) | False Negative (FN) |
| 实际为负例 (N) | False Positive (FP) | True Negative (TN) |
各个术语的含义如下:
- 真正例(True Positive, TP):模型正确地将正例样本预测为正例。
- 真负例(True Negative, TN):模型正确地将负例样本预测为负例。
- 假正例(False Positive, FP):模型错误地将负例样本预测为正例。
- 假负例(False Negative, FN):模型错误地将正例样本预测为负例。
二分类指标
| 预测为正例 § | 预测为负例 (N) | |
|---|---|---|
| 实际为正例 § | True Positive (TP) | False Negative (FN) |
| 实际为负例 (N) | False Positive (FP) | True Negative (TN) |
混淆矩阵提供了对模型在不同类别上的性能进行详细的评估。通过分析混淆矩阵中的不同元素,可以计算出多个评估指标,如准确率、召回率、精确度和F1值等。例如,通过混淆矩阵可以计算以下指标:
1.准确率
分类正确的样本占总样本数量的比例,即
$$
Accuracy=(TP + TN) / (TP + TN + FP + FN)。
$$
2. 召回率
正例样本中被正确预测为正例的比例,即
R e c a l l = T P / ( T P + F N ) Recall= TP / (TP + FN) Recall=TP/(TP+FN)
3. 精确度
模型预测为正例的样本中实际为正例的比例,即
P r e c i s i o n = T P / ( T P + F P ) Precision=TP / (TP + FP) Precision=TP/(TP+FP)
4. F1值
综合考虑了精确度和召回率的指标,即
F 1 S c o r e = 2 ∗ ( P r e c i s i o n ∗ R e c a l l ) / ( P r e c i s i o n + R e c a l l ) 。 F1 Score = 2 * (Precision * Recall) / (Precision + Recall)。

本文详细介绍了混淆矩阵及其在二分类问题中的应用,包括准确率、召回率、精确度、F1值、真阳性率和假阳率。进一步探讨了动态混淆矩阵与阈值的关系,从最小和最大阈值的情况分析模型性能。同时,文章深入讲解了ROC曲线的含义,如何准备数据并绘制ROC曲线,以及AUC作为评价指标的重要性。最后,提到了woe、iv和ks等拓展指标。
最低0.47元/天 解锁文章
435

被折叠的 条评论
为什么被折叠?



