经典的精度:即 总精度or总正确率:
p=(N−ΔN)/N∗100% p = (N - \Delta N) / N * 100\% p=(N−ΔN)/N∗100%
△N为被错分的样本数; N为总样本数
在不平衡问题中,少数类被错分的代价变大,而总精度默认所有样本的错分代价相等。
AUC
学术界采用AUC(ROC曲线下部的面积)值度量不平衡问题的性能.
ROC: Receiver Operating Characteristic
AUC: the Area Under the ROC Curve
求解AUC有两种方法:
1.公式法:
AUC=S0−n0(n0+1)/2n0n1AUC = \frac{S_0 - n_0(n_0+1)/2}{n_0n_1}AUC=n0n1S0−n0(n0+1)/2
Tips : 只讲排序,不讲对错
S_0 为 正类样本排序号(位置)之和;公式法排序为升序
n_0 为正类样本数
n_1 为负类样本数
如上图:
classifier 1:
S0=5+7+8+9+10=39S_0 = 5+7+8+9+10=39S0=5+7+8+9+10=39
n0=5n_0 = 5n0=5
n1=5n_1 = 5n1=5
AUC=24/25AUC = 24 / 25AUC=24/25
classifier2 同样的 :
AUC=16/25AUC = 16 / 25AUC=16/25
由此得出,classifier 1 更好一些
2.积分法(求面积)
如上图,对应classifier1:
1.位置降序开始,先是4个正类,所以纵轴偏移 4 * 1/5 = 0.8
2.然后一个负类: 横轴方向 偏移一个0.2
3.以此类推 ,最后得AUC = 0.96
查准率
查准率,准确率,精确率 表述同一概念:precision rate PR
PR 针对预测结果而言,表述 预测为正类得样本中,有多少是真正得正类样本
ppr=TPTP+FPp_{pr} = \frac{TP}{TP+FP}ppr=TP+FPTP
注意:精度:accuracy 与PR 完全不同
查全率
查全率, 召回 是同一表述 recall rate:RR 有时也称灵敏度
prr=TPTP+FNp_{rr} = \frac{TP}{TP+FN}prr=TP+FNTP
实际上也就是:正类预测精度(positive accuracy)
查准率和查全率的关系:
F值
F值(F-Measure)是PR 和 RR 的加权调和平均:
表达了对查全率和查准率得偏好程度
alpha > 1时,偏向查全率。
Pf=(1+α2)ppr∗prrα2∗ppr+prrP_{f} = \frac{(1+\alpha^2)p_{pr}*p_{rr}}{\alpha^2*p_{pr}+p_{rr} }Pf=α2∗ppr+prr(1+α2)ppr∗prr
当alpha=1 时,就是常见的F1值
Pf1=2ppr∗prr(ppr+prr)P_{f1} = \frac{2p_{pr}*p_{rr}}{(p_{pr}+p_{rr} )}Pf1=(ppr+prr)2ppr∗prr
当 F值较高时,说明方法是有效的。