模型评估:从混淆矩阵到性能指标
在机器学习的实际应用中,模型的输出与现实世界紧密相连,不同类型的错误可能会带来截然不同的后果。例如,在乳腺癌检测中,将良性样本误判为恶性可能会让等待检测结果的女性产生焦虑,但进一步检测后会发现她并没有患乳腺癌;然而,将恶性样本误判为良性则可能导致患者得不到治疗或治疗不及时,这可能会危及生命。同样,自动驾驶汽车将路上玩耍的孩子误认成空汽水罐,也会带来严重的后果。因此,仅使用模型的整体准确率来评估模型可能会产生误导,因为它没有考虑到错误的代价。
1. 2x2 混淆矩阵
在处理二元分类问题时,我们通常会为每个输入样本分配一个类别标签。例如,一个具有逻辑输出的神经网络可以被解释为样本属于类别 1 的概率。通常,我们使用 0.5 作为阈值来分配类别标签:如果输出小于 0.5,则将输入归为类别 0;否则,归为类别 1。对于其他类型的模型,决策规则可能不同(如 k - NN 中的投票),但效果是相同的:我们为输入分配一个类别。
当我们将整个测试集输入模型并应用决策规则后,会得到每个样本的预测类别标签和真实类别标签。对于二元分类器,每个输入样本在预测类别和真实类别之间有四种可能的结果,如下表所示:
| 真实类别 | 预测类别 | 情况 |
|---|---|---|
| 0 | 0 | 真阴性 (TN) |
| 0 | 1 | 假阴性 (FN) |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



