16、评估排名性能:提升图的应用与解读

评估排名性能:提升图的应用与解读

1. 预测目标与提升图概述

在数据分析中,我们常常有这样一个预测目标:在一组新记录里,找出最有可能属于感兴趣类别的那些记录。这和为每个新记录预测类别归属的目标有所不同。

对于二元数据,提升图(也被称为提升曲线、增益曲线或增益图)是一种常用的工具。相较于预测连续结果,它在二元结果的场景中应用更为普遍。提升曲线能帮助我们判断,通过选择相对较少的记录,能在多大程度上获取较大比例的响应者,就像“撇取奶油”一样。构建提升曲线需要一个经过“评分”的验证数据集,也就是给每条记录附加其属于给定类别的倾向值。

例如,在处理一些特定情况时,如查找税务欺诈者、债务违约者或邮件营销的响应者,我们希望分类模型能筛选记录,并根据它们属于目标类别的可能性进行排序。这样我们就能做出更明智的决策。比如,在查找税务欺诈者时,我们可以决定检查多少份以及哪些纳税申报单;或者在进行有限预算的邮件营销时,确定目标潜在客户。

2. 按倾向值排序

为了构建提升图,我们要按倾向值对记录集进行降序排序,这里的倾向值指的是属于重要类别(如 C1)的倾向。然后,在每一行计算 C1 类成员的累积数量(实际类别为 C1)。以下是一个割草机示例的按所有权倾向值(从高到低)排序的记录表格:
| Obs | Propensity of 1 | Actual Class | Cumulative Actual Class |
| — | — | — | — |
| 1 | 0.995976726 | 1 | 1 |
| 2 | 0.987533139 | 1 | 2 |
| 3 | 0.984456382 | 1 | 3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值