评估排名性能:提升图的应用与解读
1. 预测目标与提升图概述
在数据分析中,我们常常有这样一个预测目标:在一组新记录里,找出最有可能属于感兴趣类别的那些记录。这和为每个新记录预测类别归属的目标有所不同。
对于二元数据,提升图(也被称为提升曲线、增益曲线或增益图)是一种常用的工具。相较于预测连续结果,它在二元结果的场景中应用更为普遍。提升曲线能帮助我们判断,通过选择相对较少的记录,能在多大程度上获取较大比例的响应者,就像“撇取奶油”一样。构建提升曲线需要一个经过“评分”的验证数据集,也就是给每条记录附加其属于给定类别的倾向值。
例如,在处理一些特定情况时,如查找税务欺诈者、债务违约者或邮件营销的响应者,我们希望分类模型能筛选记录,并根据它们属于目标类别的可能性进行排序。这样我们就能做出更明智的决策。比如,在查找税务欺诈者时,我们可以决定检查多少份以及哪些纳税申报单;或者在进行有限预算的邮件营销时,确定目标潜在客户。
2. 按倾向值排序
为了构建提升图,我们要按倾向值对记录集进行降序排序,这里的倾向值指的是属于重要类别(如 C1)的倾向。然后,在每一行计算 C1 类成员的累积数量(实际类别为 C1)。以下是一个割草机示例的按所有权倾向值(从高到低)排序的记录表格:
| Obs | Propensity of 1 | Actual Class | Cumulative Actual Class |
| — | — | — | — |
| 1 | 0.995976726 | 1 | 1 |
| 2 | 0.987533139 | 1 | 2 |
| 3 | 0.984456382 | 1 | 3
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



