ROC和GINI
一、imbalanced classification problem
一些简单的分类问题可以用accuracy来衡量分类模型的优劣,而对于观测样本差距较大的分类问题(imbalanced classification problem)则须采取其他方法衡量。
例如,贷款反欺诈问题,假设总共有1000个诚实样本,10个欺诈样本,如何评价以下两个模型的优劣:
模型1:10个欺诈样本中未识别7个,1000个诚实样本中有50个被误判为欺诈。
模型2:10个欺诈样本中未识别3个,1000个诚实样本中有100个被误判为欺诈。
模型1的出现57个差错,模型2出现103个差错,如果按照accuracy rate判断,模型1显然胜出。但是,少量欺诈却会给银行带来重大损失,换句话说,欺诈被误判为诚实的代价,要远远高于诚实被误判为欺诈的代价。在这种情况下,我们需要寻找其它衡量模型优劣的方法替代accuracy rate。ROC和AUC是一种常见的替代方法。
二、ROC
(一)分类结果的四种情况
我们将上述问题的实际欺诈样本称为positive,简写为P;实际诚实样本称为negative,简写为N。模型预测的欺诈的样本为classified positive,简写为CP;预测的诚实样本为classified negative,简写为CN。则分类结果有以下四种情况: