刚开始接触机器学习的时候,对于这个评估指标搞的很是头疼,西瓜书模型评估与选择章节介绍了这些指标,但是还是依然觉得有点难于理解。有些知识当你不用的时候,过一段时间发现就忘了,究其原因,可能当时学的时候,就没有理解的深刻,再加上时间一冲淡,每次就像看学习新知识。
言归正传,只是提供一下掌握这个问题最核心的逻辑梳理,具体的知识介绍,我会在下面放经典文章,不多,但是绝对经典!
我们如何判断自己选择的机器学习模型是否足够好,而评估指标给我们提供了一种选择,依靠评估指标我们就可以做到调参和模型的选择。
1、首先就是混淆矩阵中的四个让人讨厌的组合,因为记不住,也不足够理解,那么如何好理解,怎么简单起来?
P/N:代表预测结果
T/F:代表预测结果是否正确
于是乎,就会有四种组合,我们从右往左看,先看预测结果,再看预测是否准确
TP:预测为1,预测正确,即实际1
FP:预测为1,预测错误,即实际0
FN:预测为0,预测错确,即实际1
TN:预测为0,预测正确即,实际0
这样,我们就理解了这四个东西到底代表什么意思,有了这四个玩意,我们就有了混淆矩阵。
2、混淆矩阵有了之后,就是接下来的三个指标:查准率、精准率、查全率
重要的不是指标的公式是什么样的,而是理解指标的含义与应用,理解了之后,公式自己根据混淆矩阵就能推出来。
查准率:对整体结果的预测准确程度,但是对于正负样本不均衡的情况,用查准率很显然不合理。
精准率:对正样本结果中的预测准确程度,注意,关注的只是正样本结果,而不是整体结果。
查全率:这个指标刚开始接触很郁闷,说了代表什么意思,也依然不懂,用一个例子来解释,网贷违约率,相对好用户,我们更关心坏用户,不能错放过任何一个坏用户,查全率越高,代表实际坏用户被预测出来的概率越高。
3、有了精准率和查全率,我们就能画出P-R曲线,但是精准率和查全率是你强我弱的关系,不存在一种情况,两个指标都很高,那么如何达到