28、模型评估:从混淆矩阵到性能指标

模型评估:从混淆矩阵到性能指标

在机器学习的实际应用中,模型的输出与现实世界紧密相连,不同类型的错误可能会带来截然不同的后果。例如,在乳腺癌检测中,将良性样本误判为恶性可能会让等待检测结果的女性产生焦虑,但进一步检测后会发现她并没有患乳腺癌;然而,将恶性样本误判为良性则可能导致患者得不到治疗或治疗不及时,这可能会危及生命。同样,自动驾驶汽车将路上玩耍的孩子误认成空汽水罐,也会带来严重的后果。因此,仅使用模型的整体准确率来评估模型可能会产生误导,因为它没有考虑到错误的代价。

1. 2x2 混淆矩阵

在处理二元分类问题时,我们通常会为每个输入样本分配一个类别标签。例如,一个具有逻辑输出的神经网络可以被解释为样本属于类别 1 的概率。通常,我们使用 0.5 作为阈值来分配类别标签:如果输出小于 0.5,则将输入归为类别 0;否则,归为类别 1。对于其他类型的模型,决策规则可能不同(如 k - NN 中的投票),但效果是相同的:我们为输入分配一个类别。

当我们将整个测试集输入模型并应用决策规则后,会得到每个样本的预测类别标签和真实类别标签。对于二元分类器,每个输入样本在预测类别和真实类别之间有四种可能的结果,如下表所示:

真实类别 预测类别 情况
0 0 真阴性 (TN)
0 1 假阴性 (FN)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值