Confusion Matrix
当数据是极度偏斜的数据集(例如某些罕见疾病)的时候,单纯用分类准确率来评判算法的话就很没用(因为即使你说百分百都是健康的人准确率可能也有百分九十九),可以通过建立混淆矩阵进行分析。
Precision and Recall
在这里有两个名词Precision精准率和Recall召回率。
精准率就是我们所关注的那一类事物的预测效果(How many selected items are relevant?),可以理解为做了一百次分类为阳性的预测有多少次是成功的,如前面所说的罕见疾病,精准率在这里就是预测疾病的成功率;
而召回率就是当关注事件真正发生的时候预测到它的效果(How many relevant items are selected?),可以理解为对分类为阳性的样本做预测有多少次是成功的,比如对于所有罕见疾病患者诊断出他真的有病的概率(周志华把它翻译成查准率和查全率让我很懵),计算方法如下:
用这两个作为指标会比之前简单用预测成功数/预测数得到的准确率更加具体。
举例:如果预测所有人都没罕见疾病而实际上有5个人,即预测全部都是Negative,此时准确率99.95%,