- 为了衡量一个机器学习模型的好坏,需要给定一个测试集,用模型对测试集中的每个样本进行预测,并根据预测结果计算评价分数。对于分类问题,常见的评价指标有正确率、召回率、F值等。给定测试集T=(x(1)^{(1)}(1), y(1)^{(1)}(1)), …, (x(N)^{(N)}(N), y(N)^{(N)}(N)),假设标签y(n)^{(n)}(n) ∈\in∈{1, 2, …, C},用学习好的模型f(x,θ\thetaθ)对测试集中的每个样本进行预测,结果为Y = y^(1)\hat{y}^{(1)}y^(1),…,y^(N)\hat{y}^{(N)}y^(N)。
1.准确率Accuracy,其中I(.)是指示函数
2.错误率
3.查准率与查全率
- 准确率是所有类别整体性能的平均,如果希望对每个类都进行性能估计,就需要计算查准率与查全率。查准率与查全率是广泛应用于信息检索和统计学分类领域的两个度量值,在机器学习的评价中也被大量使用。对类别c来说,模型在测试集上的结果可以分为四种情况:
- a.真阳性(True Positive,TP):一个样本的真实类别为c,并且模型正确地预测为类别c,这类样本数量记为:
- b.假阴性(False Negative,FN):一个样本的真实类别为c,模型错误地预测为其它类别。这样样本数量记为:
- c.假阳性(False Positive,FP):一个样本的真实类别是其他类别,模型错误地预测为类c。这类样本数量记为:
- d.真阴性(True Negative, TN):一个样本的真实类别是其它类别,模型也也预测为其他类别。这类样本数量记为:
- a.真阳性(True Positive,TP):一个样本的真实类别为c,并且模型正确地预测为类别c,这类样本数量记为:
- 类别c预测结果的混淆矩阵如下:
- 查准率(Precision):也叫准确率或精度,类别c的查准率是所有预测为类别c的样本中,预测正确的比例。
- 查全率(Recall):也叫召回率或灵敏度,类别c的查全率是所有真实标签为类别c的样本中,预测正确的比例。
- F值(F score):是一个综合指标,为查全率和查准率的调和平均,下式中β\betaβ用于平衡查全率与查准率的重要性,一般取1.β\betaβ=1时的F值称为F1值,是查准率与查全率的调和平均。