分类模型的评分、排序与概率估计
1. 评分与排序
1.1 分组与分级模型的ROC曲线差异
分组模型和分级模型的ROC曲线外观有明显不同。分组模型的ROC曲线线段数量与模型中的实例空间段数量相同;而分级模型的ROC曲线则为数据集中的每个示例都有一个线段。这体现了分级模型比分组模型具有更高的“分辨率”,也就是模型的细化程度更高。
1.2 决策边界与性能表现
以图中的三个决策边界A、B、C为例,它们分别对应不同的分类性能。例如,边界B将五分之一的正例和五分之一的反例误分类(真阳性率tpr = 0.80,假阳性率fpr = 0.80);边界A不会误分类任何反例;边界C能正确分类所有正例。当把线性模型转换为具有四个段的分组模型时,会改变覆盖曲线,并且有时降低模型的细化程度可以获得更好的排序性能。这表明训练模型不仅要放大显著的差异,还要减少误导性差异的影响。
1.3 将排序器转换为分类器
排序器和评分分类器的主要区别在于,排序器仅假设较高的分数意味着对正类的证据更强,但对分数的表达尺度以及区分正例和反例的最佳分数阈值没有假设。可以通过覆盖曲线或ROC曲线来确定这个阈值,关键概念是准确率等距线。
- 覆盖图中的操作 :在覆盖图中,具有相同准确率的点由斜率为1的线连接。我们只需通过左上角点(有时称为ROC天堂)画一条斜率为1的线,然后向下滑动,直到它与覆盖曲线在一个或多个点相交,这些点能实现该模型的最高准确率。
- ROC图中的操作 :在ROC图中,所有斜率需要乘以类比率的倒数(1/clr = Neg/Pos)。例如,在调整垃圾邮
超级会员免费看
订阅专栏 解锁全文
1966

被折叠的 条评论
为什么被折叠?



