精确率、召回率
- 精确率:预测的正样本中预测对了的比例(抓的人中有多少个是小偷(抓对了))
- T P T P + F P \frac{TP}{TP+FP} TP+FPTP
- 召回率:有多少正确的被你找回来了(从小偷这个群体中,抓了多少个)
- T P T P + F N \frac{TP}{TP+FN} TP+FNTP
AUC
- 一言以蔽之,样本集中任取一个正样本和一个负样本,正样本预测为正的概率大于负样本预测为正的概率(记为事件 A A A),AUC就是这一事件发生的可能性
- 计算AUC的方法有二:
- 1、用ROC曲线,ROC的面积就是AUC
- 2、结成正负样本对计算。假设有m个正样本,n个负样本,正负样本对有
m
×
n
m\times n
m×n, 每个样本对中,若事件A发生, 则记为1,否则为0,将这
m
×
n
m\times n
m×n个数累加,再除以
m
×
n
m\times n
m×n
- 采用频率估计法
ROC曲线
- 接收者操作特征(receiver operating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。
- 横轴FPR(1-Specificity),纵轴TPR(Sensitivity)
- T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP TPR可以理解成小偷这个群体里被抓的比例(被抓的小偷/所有小偷)
- F P R = F P F P + T N FPR=\frac{FP}{FP+TN} FPR=FP+TNFPFPR可以理解成好人被错当小偷的比例(以为是小偷的好人/所有好人),也可以理解为没病的人误阳的比例
- 再回忆下召回率和准确率,发现召回率=TPR
- 左下角,TPR=FPR=0的情况,应该是判定为正的阈值=1时,按这个阈值,根本就没有判定为正的样本,所以也就没有TP和FP了
- 右上角,是判定阈值为0时,模型将所有样本都判成正样本,因此TP=所有正样本,FP=所有负样本