这几个评价标准非常容易弄混与想当然。认真看哈,很重要。
对于室内场景,或者是任何带类别的识别任务,都会有class average accuracy. 大家想当然的翻译成类平均识别率,就会和precision搞混。而且又因为它带一个accuracy,所以会和accuracy搞混。
precision
认准率。通俗来讲就是你认出来的,有多少人对了。举个例子,你家有一只狗,还有两瓶啤酒,两份报纸,一双拖鞋,也就是两只拖鞋(样本总量为6)。你对你家狗狗说去给我把整个屋子里面的啤酒都拿过来。然后它给你叼过来两瓶啤酒,一份报纸,一只拖鞋,这时狗狗的precision是50%,它认为是啤酒的四个物品中只有一个是。然后你和你家猫说去给我把烟叼过来,它赏你一个白眼。主子的precision是零。
这个指标反应了你的可信度,比如让家用机器人把降压药拿过来,他一定不能错,他可以不把家里全部的降压药都拿过来,但是他要保证拿过来必须是降压药。降压药的precision一定要是100%。
recall
召回率,通俗来讲就是有多少东西被你找到了。还是刚才的猫狗例子。你对你家狗说去给我把整个屋子里面的啤酒都拿过来。然后它给你叼过来两瓶啤酒,一卷卫生纸,一只拖鞋,你喝完了这两瓶啤酒,觉得你家狗狗太笨,就拿来这么点。你决定亲自去。你打开冰箱,发现冰箱里真的就两瓶啤酒,你瞬间热泪盈眶,原