[模型评估]五种评估图表(Clementine)

本文介绍了如何通过收益图、提升图、响应图、利润图和投资回报图来评估预测模型的有效性。这些图表能够帮助理解模型预测精度的变化趋势,以及模型在不同分位数上的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

预测值和置信度:

 

$R-表示预测值,$RC表示置信度,置信度在0-1之间,说明预测值的精准度。

评估图表的工作原理:

根据预测值及预测的置信度排序记录、将记录分割为大小相等的组(分位数)并按由高到低顺序为每个分位数绘制业务标准值。

收益(增益)图表:

收益的定义是相对于全部匹配,发生于每个分位数中的匹配的百分比。其计算方法为(分位数中的匹配数量/全部匹配数量) × 100%

解读收益图。累积收益图的线从左至右的走势通常是从0% 到100%。优秀模型的收益图将陡升至100%,然后保持平直。无法提供有用信息的模型将呈对角线状,即从左下角到右上角(选择了包含基线后将显示类似图表)。

提升图(TGI指数):

提升将每个分位数中匹配记录的百分比与在全部训练数据中匹配的百分比进行比较。其计算方式为(在分位数中的匹配/在分位数中的记录)/(全部匹配/全部记录)。

解读提升图。累积提升图的线从左至右的走势通常为:起始于大于1.0 的值,并渐渐下降,直到接近1.0。图表的右侧边缘表示整个数据集,因此累积分位数的匹配与数据中的匹配的比例为1.0。对于优秀模型的提升图,其线开始于图表左侧大于1.0 的值,且在向右移动的过程中,始终保持在较高的水平;然后,在图表右侧,向1.0的方向迅速下降。如果模型不能提供任何信息,则其线在整个图形中将始终围绕在1.0 左右。(如果选择了包含基线,一条值为1.0 的水平线将显示在图表中供您参考。)

响应图:

响应即分位数中,匹配记录的比例。其计算方式为(分位数中的匹配/分位数中的记录)× 100%

解读响应图。累积响应图通常与提升图极其类似,只在尺度标准方面有所区别。通常,响应图开始于接近100%之处,并逐渐下降,最终将在延伸至图表右侧边缘时达到整体响应率(全部匹配/全部记录)。对于优秀模型的响应图,其线开始于图表左侧接近或等于100% 的值,且在向右移动的过程中,始终保持在较高的水平;然后,在图表右侧,向整体响应率的方向迅速下降。如果模型不能提供任何信息,则其线在整个图形中将始终围绕在整体响应率左右。(如果选择了包含基线,一条值相当于整体响应率的水平线将显示在图表中供您参考。)

利润图:

利润等于每个记录的收入减去该记录的成本。也就是说,分位数的利润就是位于该分位数内的所有记录的利润总和。这里假定收入仅应用于匹配项,但成本可应用于所有的记录。利润及成本都可以是固定的,也可以由数据中的字段决定。其计算方法为(分位数中所有记录收入的总和分位数中所有记录成本的总合)。

例如,如果为每个客户邮寄报价的成本是$0.48,而从接受三个月的订阅的积极响应中获得的收入是$9.95,则每个no 响应将花费$0.48,而每个yes 响应将赚取$9.47(计算方式为9.950.48)。

解读利润图。累积利润图线从左至右的走势代表随着所选样本数量的增加,利润总和的增长。利润图通常开始于0 附近,并在向右延伸的过程中,稳步增长直至在图表中部到达峰值或保持较高的值;随后,在向右侧边缘延伸的过程中,逐渐下降。优秀模型的利润图将在图表中部某处显示定义良好的峰值。而无法提供任何信息的模型,其线相对而言比较平直,也可能由于成本/收入结构的不同增加、降低或保持不变。

投资回报图:

投资回报(ROI) 也需要确定收入和成本,从这一点上来说,它与利润相同。ROI 将分位数的成本和利润进行比较。其计算方法为(分位数利润/分位数成本)× 100%

解读投资回报图。累积投资回报(ROI) 图通常与响应图及提升图类似,只有在尺度标准方面有所差别。投资回报图通常开始于大于0% 的值,并逐渐下降,直到达到整个数据集的整体ROI(可能为负)。对于优秀模型的投资回报图,其线开始于图表左侧大于0% 的值,且在向右移动的过程中,始终保持在较高的水平;然后,在图表右侧,向整体ROI 的方向迅速下降。如果模型不能提供任何信息,则其线在整个图形中将始终围绕在整体ROI 左右。

 

累积响应图、提升图和投资回报图类似,只是在尺度标准方面有所差别。

 

可视化数据挖掘应用实例一则——某银行信贷规则评估 吴源林 (上海财经大学MBA 学院,上海 200083) 摘要:本文应用 Clementine 工具,通过对某银行评估客户信用申请的资料挖掘,展示 了数据挖掘中遇到的问题和解决思路。 关键词:数据挖掘;决策树;Clementine 数据挖掘是运用模式识别技术,以及统计和数 学知识,通过对大量的、不完全的、有噪声的、模 糊的、随机的数据集进行详尽审查挖掘,以发现数 据中内在的关联性、特征和趋势。数据挖掘综合了 多种学科技术,能提供数据分类、聚类、关联和预 测等功能。 近年来,数据挖掘技术已经在 国外多行业中得到了普遍应用,尤 其在金融、电信、零售等领域。许 多企业纷纷利用数据挖掘技术作为 他们获取竞争优势的战略工具,典 型的数据挖掘应用包括生产营运管 理、营销管理和信用分析等。一些 软件公司也推出了功能强大、用户 友好的数据挖掘应用软件,如SAS 公司的Data Miner,SPSS 公司的 Clementine,IBM Intelligent Miner 等,微软公司在其客户关系管理软 件CRM3.0 中也集成了部分数据挖 掘功能。 目前国内不少企业也正在引进 和开始实施这些技术,以期提高其 决策管理能力和竞争优势。但数据 挖掘不仅仅是一个技术运用问题, 其涉及到商务活动中的各个方面。 如果我们对所研究的问题和数据挖掘方法的认识不 够深入的话,则很可能得到错误的信息,造成巨大 的经济损失。 本文通过对日本某银行审批客户申请贷款的记 录进行挖掘,展示数据挖掘中可能遇到的问题和解 决思路,并希望能起到抛砖引玉的作用。 数据挖掘功能的强大性,使其几乎可以运用于 任何商业或科研领域,为了保障数据挖掘的质量和 有效性,SPSS 公司联合几大行业巨头制定了“数据 挖掘跨行业标准流程”(CRISP-DM1)。我们下面的 挖掘过程也将严格按照该流程进行。为清晰展现整 个数据挖掘流程, 我们使用了SPSS 公司的 Clementine 工具。该工具使用节点连接的方式建立 模型,能让我们直观了解建模过程,并把注意力集 中在具体问题的分析上。 一、商业理解,亦即研究理解阶段 这一阶段把项目的目标和要求用清晰的,并把 这些目标和制约条件转化成数据挖掘问题的定义, 形成一个初步实现目标的策略; 在本例中,我们的目标是要找出银行批准或否
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值