问题提出
题目: 假如重庆交通大学准备招标采购一套宿舍行人目标图像识别系统,选择2家公司的产品来测试。测试手段是:从学生宿舍区一段监控视频中识别男生的人数。
实验结果如下:
算法1(产品1)的检测结果:检测出“男生”人数82人,其中78人为男生,4人其实是女生;
算法2(产品2)的检测结果:检测出“男生”人数88人,其中80人为男生,8人其实是女生;
经过人工检测,视频中实际准确的总人数为100人,其中男生80人,女生20人。
问题: 请问算法1和算法2的 “ 查准率 ” “ 查全率 ” “ F1-score ” 等分别是多少?你认为哪个更优秀?
引入分类结果混淆矩阵概念
真实情况 | 预测结果 | |
---|---|---|
TP | FN | |
正例 | TP | FN |
反例 | FP | FN |
- 根据表格
样本总数: = TP+FP+FN+TN;
查准率: 预测为正例的实例中真实正例的比例;
查全率: 真实正例被预测为正例的比例;
F1-score:度量一个模型的好坏,综合考虑查准率和查全率。
一般情况下,查准率高,查全率就会偏低,反之,查准率低,查全率就偏低。
问题解决
算法一
- 根据表格中的内容计算:
查准率:
查全率:
F1-score:
算法2
查准率:
查全率:
F1-score:
结果分析:
从查准率评价指标来看,算法 2 要优于算法 1,从查全率和 F1 度量评价指标来看,算法 1 都要优于算法 2; 总的来说,算法 2 更好。