话不多说,首先看一下ROC的横纵坐标
可以看出,TPR考虑的都是正例,既分母TP+FN是真实正例的数目;FPR考虑的都是负例,分母FP+TN是真实负例的数目。
那么为什么ROC不受样本不平衡的影响呢?
想一下ROC曲线绘画过程,可以看成以预测为正例的概率进行排序,然后概率由大到小依次把样本预测为正例,每次把一个样本当成正例ROC曲线上就多了一个点(TPR,FPR)。这个过程也可以看成一个由大到小的阈值去筛选概率高的样本作为正例(预测值)。
如果负例增加到10倍,可以假设增加的负样本与原有的负样本保持独立同分布。
TPR:在学习器和上述阈值不变的情况下,我们看一下负例增加前后TPR会不会变化。首先分母不会变。再考虑分子,因为阈值和学习器也不变,那么对于真实的正例来说,预测结果不变,

ROC曲线的横纵坐标分别表示真正例率(TPR)和假正例率(FPR)。ROC曲线不受样本不平衡问题影响的原因在于,无论负例数量如何变化,只要学习器和阈值不变,TPR和FPR的计算方式保持一致,导致ROC曲线上每个点的位置基本不变。实际操作中,虽然可能会有轻微扰动,但整体趋势保持稳定。
最低0.47元/天 解锁文章
1421

被折叠的 条评论
为什么被折叠?



