1.3 单一值评价指标(single number evaluation matric)
这一节主要是说对于结果我们希望有一个单一评价指标来决定在多个模型中选择哪个,如下图所示:
建立机器学习项目的过程本来就是一个凭借经验不断更新迭代的过程。假设我们现在有两种方案A和B,A的查准率为95%,查全率为90%,而B的查准率为98%,查全率为85%。什么是查准率和查全率简单说一下,查准率就是准确率,即预测为猫的图片中真正的猫图片的概率,而查全率衡量的是图片是否查完全,查全率为预测正确的猫图片占全部猫图片的比例。
查准率和查全率是一种trade-off关系,比如为了提高查全率,我可以将所有的图片都预测为猫图片,这样查全率就是100%,因为所有真正的猫图片我都找到了,但是这样做就会让准确率很低。
面对图中AB两种方案,一个查全率高一些,一个查准率高一些,那么这两个方案我们到底该怎么选呢?这时候,我们就需要一个单一评价指标,比如F1 score,F1 score是查准率和查全率的调和平均数。计算得A方案的F1 score更大,所以选择一方案。
一般的机器学习项目我们都需要有开发集和单一评价指标。有了开发集,我们就可以计算对应的评价指标,然后再选取一个单一评价指标帮助我们快速地更新迭代产品。
再来看一个例子:
假设我们有一个猫app在全球几个地方投入使用,预测误差如上图所示。首先我们可以同时运行好几种方案,然后根据单一评价指标选择最优方案。在这里可以使用平均数,选取使全球多个地区平均误差最小的