分类问题评价标准
1、混淆矩阵
. | 预测的正类(+,1) | 预测的负类(-,0) |
---|---|---|
实际的正类(+,1) | f + + T P f_{++}TP f++TP | f + − F N f_{+-}FN f+−FN(Ⅱ) |
实际的负类(-,0) | f − + F P f_{-+}FP f−+FP(Ⅰ) | f − − T N f_{--}TN f−−TN |
以预测的结果看待实际的值
T(True), F(False), P(Positive), N(Negative)
Ⅰ类错误(Type Ⅰ errot):实际为负样本,预测为正样本(FP)
Ⅱ类错误(Type Ⅱ error):实际为正样本,预测为负样本(FN)
2、评价指标
- 准确率( Accuracy rate)
A C C = T P + T N T P + F N + F P + T N ACC=\frac{TP+TN}{TP+FN+FP+TN} ACC=TP+FN+FP+TNTP+TN
预测准确的与样本总数的比值
- 精度( precision)
p = T P T P + F P p=\frac{TP}{TP+FP} p=TP+FPTP
预测正确的正类与预测为正类的比值
- 召回率( recall)=真正率(true positive rate TPR)
r = T P T P + F N r=\frac{TP}{TP+FN} r=TP+FNTP
预测正确的正类与实际为正类的比值
-
F
1
度
量
F_{1}度量
F1度量
F 1 = 2 r p r + p F_{1}=\frac{2 r p}{r+p} F1=r+p2rp
F 1 表 示 召 回 率 和 精 度 的 调 和 平 均 数 F_{1}表示召回率和精度的调和平均数 F1表示召回率和精度的调和平均数
3、ROC曲线及AUC
以FPR(负类召回率)为横坐标,TPR(正类召回率)为纵坐标,通过调整模型预测的阈值可以得到不同的点,将这些点可以连成一条曲线,这条曲线叫做接受者工作特征曲线(Receiver Operating Characteristic Curve,简称ROC曲线)
-
roc曲线是对预测为正样本概率按照从大到小的顺序排序,由上到下设定为阈值,>=阈值预测为正样本(逾期样本,标签设定为1),<=阈值预测为负样本(非逾期用户,标签设定为0),在根据真实标签得出混淆矩阵,计算出TPR,FPR做出图形。
-
FPR(负类召回率)
F P R = F P F P + T N FPR=\frac{FP}{FP+TN} FPR=FP+TNFP
预测为正类的负样本与实际上所有负样本的比值
- 真正率(true positive rate TPR)即召回率(recall)
T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP
预测正确的正类与实际为正类的比值
ROC曲线如下:
- D点每个样本都被预测为负类
- C点每个样本都被预测为正类
- A点为理想模型
显然A点为最优点,ROC曲线越靠近A点代表模型表现越好,曲线下面积(Area Under Curve, AUC)越大,AUC是衡量模型表现好坏的一个重要指标。
4、ks曲线
http://mt.sohu.com/20160412/n443990141.shtml
http://blog.youkuaiyun.com/sinat_26917383/article/details/51725102