模型评估指标

本文深入解析机器学习中各类评估指标,包括混淆矩阵、准确率、精度、召回率、F1得分、ROC&AUC等分类评估指标,以及均方误差、R平方值、绝对平均误差等回归评估指标,助你全面理解模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分类评估指标

举例图
在这里插入图片描述
蓝色点代表标签为True,红色点标签为False
直线上方代表预测为True, 下方代表预测为False

1. 混淆矩阵(Confusion Matrix)

在这里插入图片描述
适用于二分类问题
用Y表示标签,y表示模型预测值

Y \ yTrueFalse
True真阳性假阴性
False假阳性真阴性

注:真假表示预测值与标签值是否相同,相同为真,不同为假。阴阳表示预测值的真假,真即为阳,假即为阴。

举例图的混淆矩阵:
在这里插入图片描述

2. 准确率(Accuracy)

准确率 = 分类正确的 / 总数
举例图的准确率:
(6+5) / (6+5+1+2)
准确率不适用的场景举例:
若检测是否为垃圾邮件的模型将所有的邮件视为不是垃圾邮件,邮件总数为100,垃圾邮件为10,则准确率为 90 / 100 = 90%,这显然不是一个好的衡量标准

3. 精度(Precision)

精度表示所以预测为真的中,标签为真的比例
精度 = 真阳性 / (真阳性+假阳性)
举例图的精度:
6 / (6+2)

4. 召回率(Recall)

召回率表示所以标签为真的中,预测为真的比例
召回率 = 真阳性 / (真阳性+假阴性)
举例图的召回率:
6 / (6+1)

5. F1得分(F1 Score)

F1得分就是调和平均数(Harmonic mean)
F1得分 = 2 * (精度 * 召回率) / (精度+召回率)

6. F-β 得分

Fβ = (1+β2) * (精度 * 召回率) / (β2精度+召回率)
当β为0时,Fβ = 精度
当β趋于正无穷时,Fβ 接近召回率
结论:当需要倾向于精度时,β越小;当需要倾向于召回率时,β越大。
当假阴性的影响大于假阳性的影响时,需要倾向于召回率
当假阴性的影响小于假阳性的影响时,需要倾向于精度
举例:
若模型是要检测邮件是否为垃圾邮件,那么将垃圾邮件归于非垃圾(假阴性)的影响小于将非垃圾邮件归为垃圾邮件(假阳性)的影响,则需要倾向于精度。
若模型是要检测人是否患病,那么将患病人归于健康人(假阴性)的影响大于将健康人归为患病人(假阳性)的影响,则需要倾向于召回率。

7. ROC & AUC

ROC:ROC曲线指受试者工作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

在模型中,ROC曲线是由TPR(真正率、敏感度)和FPR(假正率、1-特异性)绘制成的。
真正率 = 预测为正类的正样本/所有正类样本,越大越好[TPR=TP/(TP+FN),相当于召回率]。
假正率 = 预测为正类的负样本/所有负类样本,越小越好[FPR=FP/(TN+FP),所有确实为假的样本,被误判为真]。

AUC:AUC值为ROC曲线所覆盖的区域面积,AUC越大,分类线分类效果越好。

AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。
0.5 < AUC < 1,优于随机猜测,这个分类器(模型)妥善设定阈值的话,能有预测价值。
AUC = 0.5,跟随机猜测一样,(例:丢硬币),模型没有预测价值。
AUC < 0.5,比随机猜测还差,但只要总反预测而行,就优于随机猜测(也可能是标签标反了)。

使用ROC和AUC的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际数据中经常会出现不平衡现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。

回归评估指标

1. 均方误差(Mean Squared Error,MSE)

均方误差是指参数估计值与参数真实值之差平方的期望值,MSE可以评价数据的变化程度,MSE越小,说明预测模型描述试验数据具有更好的精确度。公式:

在这里插入图片描述

2. R平方值(R² score)

又称决定系数,它是表征回归方程在多大程度上解释了因变量的变化,或者说方程对观测值(观测值是指通过通过测量或测定所得到的样本值)的拟合程度,R²的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R²的值越小,说明回归直线对观测值的拟合程度越差。公式:
在这里插入图片描述

3. 绝对平均误差(Mean Absolute Error,MAE)

指预测值与真实值之间平均相差多大。公式:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值