7、二元分类及相关任务的深入解析

二元分类性能分析与可视化

二元分类及相关任务的深入解析

1. 二元分类中的性能可视化

在二元分类中,有一个重要的工具用于可视化分类器和其他模型的性能,那就是覆盖图(coverage plot)。我们可以通过二分类列联表来理解覆盖图。虽然列联表包含九个数字,但实际上只有四个数字可以自由选择,统计学家称这个表有四个自由度。

通常,我们特别关注四个能完全确定列联表的数字:正例数量(Pos)、负例数量(Neg)、真正例数量(TP)和假正例数量(FP)。覆盖图通过矩形坐标系和一个点来可视化这四个数字。想象一个高度为Pos、宽度为Neg的矩形,所有正例位于矩形的y轴,所有负例位于x轴。只要正预测在负预测之前,我们并不关心正例和负例在各自轴上的具体顺序,这样就可以将整个列联表描绘为矩形内的一个点。

例如,在图中标记为C1和C2的两个分类器,我们可以直观地看出C1比C2更好。因为C1的真正例更多且假正例更少,即在两个类别上的表现都更优。如果一个分类器在所有类别上都优于另一个分类器,我们称前者支配后者。但情况并非总是如此简单,比如第三个分类器C3,它在正例上比C1好,但在负例上比C1差。此时,C1和C3都支配C2,但它们彼此并不支配,我们的选择取决于更看重正例还是负例。

在覆盖图中,连接C1和C3的线段斜率为1。沿着这条线移动时,每增加一个真正例,就会失去一个真负例(或增加一个假正例),但真正例和真负例的总和不变,所以这条线上的分类器准确率相同。

如果对坐标轴进行重新归一化,即将x轴除以Neg,y轴除以Pos,就得到了单位正方形内的图,y轴为真正例率(tpr),x轴为假正例率(fpr)。这种归一化的覆盖图在文献中被称为ROC图。ROC图比覆盖图更常见,但两者都有特定用途。一般来说,如

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值