性能评价指标:
评价模型的好坏的各种不同的指标。常用的性能评价指标有:错误率&精度、准确率&召回率、AP&mAP等。
- 错误率&精度
针对数据集D和学习器f而言:
1、错误率:分类错误的样本数占总样本的比例
2、精度:分类正确的样本数占总样本的比例
- 准确率&召回率
信息检索中,我们经常会关心“检索出的信息有多少比例是用户感兴趣的”以及“用户感兴趣的信息中有多少被检索出来”,用精度和错误率就描述不出来了,这就需要引入准确率(precision,亦称查准)和召回率(recall,亦称查全)。
求解公式:
1、准确率:预测结果中有多少是真的正(测试总个数中预测正确的比例)
2、召回率:所有正样本中预测正确的个数(找回来了几个)
一般来说,我们希望上述两个指标都是越高越好,然而没有这么好的事情,准确率和召回率是一对矛盾的度量,一个高时另一个就会偏低,当然如果两个都低,那肯定时哪点除了问题。
- AP&mAP
1、p: precision,预测正确的个数/测试总个数
2、AP:average precision,每一类别P值的平均值
3、mAP:mean average precision,对所有类别的AP取均值。 多标签图像分类任务中图片的标签不止一个,因此评价不能用普通单标签图像分类的标准,即mean accuracy,该任务采用的是和信息检索中类似的方法—mAP(mean Average Precision),虽然其字面意思和mean accuracy看起来差不多,但是计算方法要繁琐得多。