本文主要整理3项评价指标,感谢大佬给与共享资源@nana-li (https://blog.youkuaiyun.com/quiet_girl/article/details/70830796)@redhorse_plus(https://blog.youkuaiyun.com/sarah98/article/details/78282068)
在介绍指标前先了解“混淆矩阵”:
混淆矩阵
True Positive(真正,TP):将正类预测为正类数
True Negative(真负,TN):将负类预测为负类数
False Positive(假正,FP):将负类预测为正类数 -->误报 (Type I error)
False Negative(假负,FN):将正类预测为负类数→漏报 (Type II error)
定义:
精确率(precision [prɪˈsɪʒən]): = 查准率(准针对的是预测结果)
精确率是针对预测结果而言的,它表示预测为正的结果的样本中有多少是真正的正样本。
即正确预测为正的占全部预测为正的比例。
召回率 (recall [rɪˈkɔ:l]): = 查全率 (全针对的是原来的样本)
召回率是针对原来的样本而言的,它表示的是样本中的正比例有多少被预测正确了。
即正确预测为正占全部正样本的比例。
准确率 (accuracy [ˈækjərəsi]) :
即预测准确的占全部样本的比例。
举例:
假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。
- TP: 将正类预测为正类数 40
- FN: 将正类预测为负类数 20
- FP: 将负类预测为正类数 10
- TN: 将负类预测为负类数 30
精确率(precision) = TP/(TP+FP) = 80%
召回率(recall) = TP/(TP+FN) = 2/3
准确率(accuracy) = TP+TN)/(TP+FN+FP+TN) = 70%
想不明白可以参考图片计算。
如有错误请指正,谢谢!