二元分类及相关任务的深入解析
1. 二元分类中的性能可视化
在二元分类中,有一个重要的工具用于可视化分类器和其他模型的性能,那就是覆盖图(coverage plot)。我们可以通过二分类列联表来理解覆盖图。虽然列联表包含九个数字,但实际上只有四个数字可以自由选择,统计学家称这个表有四个自由度。
通常,我们特别关注四个能完全确定列联表的数字:正例数量(Pos)、负例数量(Neg)、真正例数量(TP)和假正例数量(FP)。覆盖图通过矩形坐标系和一个点来可视化这四个数字。想象一个高度为Pos、宽度为Neg的矩形,所有正例位于矩形的y轴,所有负例位于x轴。只要正预测在负预测之前,我们并不关心正例和负例在各自轴上的具体顺序,这样就可以将整个列联表描绘为矩形内的一个点。
例如,在图中标记为C1和C2的两个分类器,我们可以直观地看出C1比C2更好。因为C1的真正例更多且假正例更少,即在两个类别上的表现都更优。如果一个分类器在所有类别上都优于另一个分类器,我们称前者支配后者。但情况并非总是如此简单,比如第三个分类器C3,它在正例上比C1好,但在负例上比C1差。此时,C1和C3都支配C2,但它们彼此并不支配,我们的选择取决于更看重正例还是负例。
在覆盖图中,连接C1和C3的线段斜率为1。沿着这条线移动时,每增加一个真正例,就会失去一个真负例(或增加一个假正例),但真正例和真负例的总和不变,所以这条线上的分类器准确率相同。
如果对坐标轴进行重新归一化,即将x轴除以Neg,y轴除以Pos,就得到了单位正方形内的图,y轴为真正例率(tpr),x轴为假正例率(fpr)。这种归一化的覆盖图在文献中被称为ROC图。ROC图比覆盖图更常见,但两者都有特定用途。一般来说,如
二元分类性能分析与可视化
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



