机器学习中分类器常见评价指标

为衡量机器学习模型好坏,需用测试集预测并计算评价分数。对于分类问题,常见评价指标有正确率、召回率、F值等。文中介绍了准确率、错误率、查准率与查全率等指标,还阐述了查准率、查全率的含义及F值的计算方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 为了衡量一个机器学习模型的好坏,需要给定一个测试集,用模型对测试集中的每个样本进行预测,并根据预测结果计算评价分数。对于分类问题,常见的评价指标有正确率、召回率、F值等。给定测试集T=(x(1)^{(1)}(1), y(1)^{(1)}(1)), …, (x(N)^{(N)}(N), y(N)^{(N)}(N)),假设标签y(n)^{(n)}(n) ∈\in{1, 2, …, C},用学习好的模型f(x,θ\thetaθ)对测试集中的每个样本进行预测,结果为Y = y^(1)\hat{y}^{(1)}y^(1),…,y^(N)\hat{y}^{(N)}y^(N)

1.准确率Accuracy,其中I(.)是指示函数

准确率.jpg

2.错误率

错误率.jpg

3.查准率与查全率

  • 准确率是所有类别整体性能的平均,如果希望对每个类都进行性能估计,就需要计算查准率与查全率。查准率与查全率是广泛应用于信息检索和统计学分类领域的两个度量值,在机器学习的评价中也被大量使用。对类别c来说,模型在测试集上的结果可以分为四种情况:
    • a.真阳性(True Positive,TP):一个样本的真实类别为c,并且模型正确地预测为类别c,这类样本数量记为:
      真阳性.jpg
    • b.假阴性(False Negative,FN):一个样本的真实类别为c,模型错误地预测为其它类别。这样样本数量记为:
      假阴性.jpg
    • c.假阳性(False Positive,FP):一个样本的真实类别是其他类别,模型错误地预测为类c。这类样本数量记为:
      假阳性.jpg
    • d.真阴性(True Negative, TN):一个样本的真实类别是其它类别,模型也也预测为其他类别。这类样本数量记为:
      真阴性.jpg
  • 类别c预测结果的混淆矩阵如下:
    类别c预测结果的混淆矩阵.jpg
  • 查准率(Precision):也叫准确率或精度,类别c的查准率是所有预测为类别c的样本中,预测正确的比例。
    查准率.jpg
  • 查全率(Recall):也叫召回率或灵敏度,类别c的查全率是所有真实标签为类别c的样本中,预测正确的比例。
    召回率.jpg
  • F值(F score):是一个综合指标,为查全率和查准率的调和平均,下式中β\betaβ用于平衡查全率与查准率的重要性,一般取1.β\betaβ=1时的F值称为F1值,是查准率与查全率的调和平均。
    F值.jpg
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值